决策树总结

2019-11-06 09:10:06

字体：大中小

来源：转载

供稿：网友

human-explainable multiclass categorical features missing features efficient non-linear training and testing

决策树的path view 与 recursive view: 每个树都可以看作根节点与子树的组合. 叶节点通常为optimal constant, 即大多数实例所在的分类标签, 或者平均输出值(回归树).

决策树分配流程: 从根节点开始, 对实例的某一特征进行测试, 根据测试结果, 将实例分配到其子节点; 这时, 每一个子节点对应着该特征的一个取值. 如此递归地对实例进行测试并分配, 直至达到叶节点, 最后将实例分到叶节点的类中.

决策树学习: 本质是从训练数据集中归纳出一组分类规则. 通常用启发式方法, 近似求解损失函数最小化问题, sub-optimal

特征选择: 递归选择决策树生成: 模型的局部选择, 考虑局部最优剪枝: 模型的全局选择, 考虑全局最优

开始, 构建根节点, 所有训练数据都在根节点内. 根据一个最优特征分割成子集: *如果有些子集已经能够被基本正确的分类, 则构建叶节点分配 *不能的就选择新的最优特征, 继续分割递归进行直至 *所有训练子集都被基本正确分类 *没有合适特征为止.

特征选择的常用准则: ID3信息增益(大), C4.5信息增益比(大), CART基尼指数(小) 理解: 特征选择是一种purifying的过程, 基尼指数是1-纯度=不纯度, 选基尼指数最小的就是选不纯度最低的特征. 理解熵: 描述随机变量的不确定性, 熵越大, 不确定性越大. 条件熵H(Y|X): 在已知随机变量X的情况下, 随机变量Y的不确定性经验熵和条件经验熵: 是熵和条件熵中的概率值由数据估计得到(通常是极大似然估计) 信息增益=H(D)-H(D|A), 由于特征A而使得对数据集D的分类的不确定性减少的程度. 所以越大分类能力越强, 结果纯度越高. 信息增益比=信息增益/训练集D关于特征A的熵, 解决”存在偏向选择取值较多的特征的问题”

overfit原因: 学习时过多地考虑如何提高对训练数据的正确分类, 从而构建出过于复杂的决策树. low-level trees build with small 数据集剪枝原理: 最小化整体的损失函数: 预测误差+参数(validation法选择)*复杂度(regularizer:叶节点数量) 不容易穷举所有可能, 用one-leaf removed

CART剪枝算法: T0是fully-grown tree也为当前最优树. 通过比较参数alpha和g(t)不断生成参数序列及相应的最优子树序列利用独立的验证数据集测试子树序列的基尼指数或者平均误差.

上一篇：gpl协议

下一篇：课程学习归纳总结(0227)