首页 > 编程 > Python > 正文

Python实现的随机森林算法与简单总结

2020-02-22 23:04:28

字体：大中小

来源：转载

供稿：网友

本文实例讲述了Python实现的随机森林算法。分享给大家供大家参考，具体如下：

随机森林是数据挖掘中非常常用的分类预测算法，以分类或回归的决策树为基分类器。算法的一些基本要点：

*对大小为m的数据集进行样本量同样为m的有放回抽样；
*对K个特征进行随机抽样，形成特征的子集，样本量的确定方法可以有平方根、自然对数等；
*每棵树完全生成，不进行剪枝；
*每个样本的预测结果由每棵树的预测投票生成（回归的时候，即各棵树的叶节点的平均）

著名的python机器学习包scikit learn的文档对此算法有比较详尽的介绍: http://scikit-learn.org/stable/modules/ensemble.html#random-forests

出于个人研究和测试的目的，基于经典的Kaggle 101泰坦尼克号乘客的数据集，建立模型并进行评估。比赛页面及相关数据集的下载：https://www.kaggle.com/c/titanic

泰坦尼克号的沉没，是历史上非常著名的海难。突然感到，自己面对的不再是冷冰冰的数据，而是用数据挖掘的方法，去研究具体的历史问题，也是饶有兴趣。言归正传，模型的主要的目标，是希望根据每个乘客的一系列特征，如性别、年龄、舱位、上船地点等，对其是否能生还进行预测，是非常典型的二分类预测问题。数据集的字段名及实例如下：

PassengerId

Survived

Pclass

Name

Sex

Age

SibSp

Parch

Ticket

Fare

Cabin

Embarked

1

0

3

Braund, Mr. Owen Harris

male

22

1

0

A/5 21171

7.25

S

2

1

1

Cumings, Mrs. John Bradley (Florence Briggs Thayer)

female

38

1

0

PC 17599

71.2833

C85

C

3

1

3

Heikkinen, Miss. Laina

female

26

0

0

STON/O2. 3101282

7.925

S

4

1

1

Futrelle, Mrs. Jacques Heath (Lily May Peel)

female

35

1

0

113803

53.1

C123

S

5

0

3

Allen, Mr. William Henry

male

35

0

0

上一篇：Python实现的圆形绘制(画圆)示例

下一篇：Python Json序列化与反序列化的示例

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

特斯拉：无钴，不代表一定是磷酸铁锂电池

2020-02-22 09:45:28

豌豆荚宣布业务调整将于2月28日关闭PC版在线服务

2020-02-22 09:42:20

小米集团宣布人事任命：联合创始人王川担任小米集团首席战略官

2020-02-22 09:39:07

外媒：高通康宁合作开发毫米波5G室内解决方案

2020-02-21 16:46:56

华为终端产品与战略线上发布会：5G全场景，共联未来

2020-02-20 10:01:00

阿里平头哥含光800芯片曝光采用台积电12nm工艺制造

2020-02-20 09:56:41

疑难解答

图片精选

网友关注