本文实例讲述了Python决策树和随机森林算法。分享给大家供大家参考,具体如下:
决策树和随机森林都是常用的分类算法,它们的判断逻辑和人的思维方式非常类似,人们常常在遇到多个条件组合问题的时候,也通常可以画出一颗决策树来帮助决策判断。本文简要介绍了决策树和随机森林的算法以及实现,并使用随机森林算法和决策树算法来检测FTP暴力破解和POP3暴力破解,详细代码可以参考:
https://github.com/traviszeng/MLWithWebSecurity
决策树算法
决策树表现了对象属性和属性值之间的一种映射关系。决策树中的每个节点表示某个对象,而每个分叉路径则表示某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表现的对象值。在数据挖掘中,我们常常使用决策树来进行数据分类和预测。
决策树的helloworld
在这一小节,我们简单使用决策树来对iris数据集进行数据分类和预测。这里我们要使用sklearn下的tree的graphviz来帮助我们导出决策树,并以pdf的形式存储。具体代码如下:
#决策树的helloworld 使用决策树对iris数据集进行分类from sklearn.datasets import load_irisfrom sklearn import treeimport pydotplus#导入iris数据集iris = load_iris()#初始化DecisionTreeClassifierclf = tree.DecisionTreeClassifier()#适配数据clf = clf.fit(iris.data, iris.target)#将决策树以pdf格式可视化dot_data = tree.export_graphviz(clf, out_file=None)graph = pydotplus.graph_from_dot_data(dot_data)graph.write_pdf("iris.pdf")
iris数据集得到的可视化决策树如下图所示:
通过这个小例子,我们可以初步感受到决策树的工作过程和特点。相较于其他的分类算法,决策树产生的结果更加直观也更加符合人类的思维方式。
使用决策树检测POP3暴力破解
在这里我们是用KDD99数据集中POP3相关的数据来使用决策树算法来学习如何识别数据集中和POP3暴力破解相关的信息。关于KDD99数据集的相关内容可以自行google一下。下面是使用决策树算法的源码:
#使用决策树算法检测POP3暴力破解import reimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import cross_val_scoreimport osfrom sklearn.datasets import load_irisfrom sklearn import treeimport pydotplus#加载kdd数据集def load_kdd99(filename): X=[] with open(filename) as f: for line in f: line = line.strip('/n') line = line.split(',') X.append(line) return X#找到训练数据集def get_guess_passwdandNormal(x): v=[] features=[] targets=[] #找到标记为guess-passwd和normal且是POP3协议的数据 for x1 in x: if ( x1[41] in ['guess_passwd.','normal.'] ) and ( x1[2] == 'pop_3' ): if x1[41] == 'guess_passwd.': targets.append(1) else: targets.append(0) #挑选与POP3密码破解相关的网络特征和TCP协议内容的特征作为样本特征 x1 = [x1[0]] + x1[4:8]+x1[22:30] v.append(x1) for x1 in v : v1=[] for x2 in x1: v1.append(float(x2)) features.append(v1) return features,targetsif __name__ == '__main__': v=load_kdd99("../../data/kddcup99/corrected") x,y=get_guess_passwdandNormal(v) clf = tree.DecisionTreeClassifier() print(cross_val_score(clf, x, y, n_jobs=-1, cv=10)) clf = clf.fit(x, y) dot_data = tree.export_graphviz(clf, out_file=None) graph = pydotplus.graph_from_dot_data(dot_data) graph.write_pdf("POP3Detector.pdf")
新闻热点
疑难解答