首页 > 编程 > Python > 正文

python决策树之CART分类回归树详解

2020-02-16 11:13:41

字体：大中小

来源：转载

供稿：网友

决策树之CART（分类回归树）详解，具体内容如下

1、CART分类回归树简介

CART分类回归树是一种典型的二叉决策树，可以处理连续型变量和离散型变量。如果待预测分类是离散型数据，则CART生成分类决策树；如果待预测分类是连续型数据，则CART生成回归决策树。数据对象的条件属性为离散型或连续型，并不是区别分类树与回归树的标准，例如表1中，数据对象xi的属性A、B为离散型或连续型，并是不区别分类树与回归树的标准。

表1

2、CART分类回归树分裂属性的选择

2.1 CART分类树——待预测分类为离散型数据

选择具有最小Gain_GINI的属性及其属性值，作为最优分裂属性以及最优分裂属性值。Gain_GINI值越小，说明二分之后的子样本的“纯净度”越高，即说明选择该属性（值）作为分裂属性（值）的效果越好。
对于样本集S，GINI计算如下：

这里写图片描述

其中，在样本集S中，Pk表示分类结果中第k个类别出现的频率。

对于含有N个样本的样本集S，根据属性A的第i个属性值，将数据集S划分成两部分，则划分成两部分之后，Gain_GINI计算如下：

这里写图片描述

其中，n1、n2分别为样本子集S1、S2的样本个数。

对于属性A，分别计算任意属性值将数据集划分成两部分之后的Gain_GINI，选取其中的最小值，作为属性A得到的最优二分方案：

这里写图片描述

对于样本集S，计算所有属性的最优二分方案，选取其中的最小值，作为样本集S的最优二分方案：

这里写图片描述

所得到的属性A及其第i属性值，即为样本集S的最优分裂属性以及最优分裂属性值。

2.2 CART回归树——待预测分类为连续型数据

区别于分类树，回归树的待预测分类为连续型数据。同时，区别于分类树选取

上一篇：python中文乱码不着急，先看懂字节和字符

下一篇：Python 查看文件的编码格式方法

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注