首页 > 学院 > 开发设计 > 正文

决策树总结

2019-11-06 09:10:06
字体:
来源:转载
供稿:网友

human-explainable multiclass categorical features missing features efficient non-linear training and testing

决策树的path view 与 recursive view: 每个树都可以看作根节点与子树的组合. 叶节点通常为optimal constant, 即大多数实例所在的分类标签, 或者平均输出值(回归树).

决策树分配流程: 从根节点开始, 对实例的某一特征进行测试, 根据测试结果, 将实例分配到其子节点; 这时, 每一个子节点对应着该特征的一个取值. 如此递归地对实例进行测试并分配, 直至达到叶节点, 最后将实例分到叶节点的类中.

决策树学习: 本质是从训练数据集中归纳出一组分类规则. 通常用启发式方法, 近似求解损失函数最小化问题, sub-optimal

特征选择: 递归选择 决策树生成: 模型的局部选择, 考虑局部最优 剪枝: 模型的全局选择, 考虑全局最优

开始, 构建根节点, 所有训练数据都在根节点内. 根据一个最优特征分割成子集: *如果有些子集已经能够被基本正确的分类, 则构建叶节点分配 *不能的就选择新的最优特征, 继续分割 递归进行直至 *所有训练子集都被基本正确分类 *没有合适特征为止.

特征选择的常用准则: ID3信息增益(大), C4.5信息增益比(大), CART基尼指数(小) 理解: 特征选择是一种purifying的过程, 基尼指数是1-纯度=不纯度, 选基尼指数最小的就是选不纯度最低的特征. 理解熵: 描述随机变量的不确定性, 熵越大, 不确定性越大. 条件熵H(Y|X): 在已知随机变量X的情况下, 随机变量Y的不确定性 经验熵和条件经验熵: 是熵和条件熵中的概率值由数据估计得到(通常是极大似然估计) 信息增益=H(D)-H(D|A), 由于特征A而使得对数据集D的分类的不确定性减少的程度. 所以越大分类能力越强, 结果纯度越高. 信息增益比=信息增益/训练集D关于特征A的熵, 解决”存在偏向选择取值较多的特征的问题”

overfit原因: 学习时过多地考虑如何提高对训练数据的正确分类, 从而构建出过于复杂的决策树. low-level trees build with small 数据集 剪枝原理: 最小化整体的损失函数: 预测误差+参数(validation法选择)*复杂度(regularizer:叶节点数量) 不容易穷举所有可能, 用one-leaf removed

CART剪枝算法: T0是fully-grown tree也为当前最优树. 通过比较参数alpha和g(t)不断生成参数序列及相应的最优子树序列 利用独立的验证数据集测试子树序列的基尼指数或者平均误差.


上一篇:gpl协议

下一篇:课程学习归纳总结(0227)

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表