模型简介PLAMLPLinear RegressionLogistic RegressionNaive BayesSVMKNNDecision TreeRandom ForestAdaBoostGBDT模型比较LASSO对比SVM和LRGBDT和RF机器学习技术特征变换过拟合与正则缺失数据处理不平衡数据处理大数据处理参考
简介:假设集是输入空间上的超平面,目标函数是01error。算法是每次更正错误直到没有错误发生。
优点:
简单线性可分保证收敛缺点:
假设线性可分线性可分收敛的速度没有保证线性不可分的时候每得到一个模型都要在训练集上去评估,时间复杂度过高。实践建议:
线性不可分的情况可以得到模型后在训练集上进行验证,在一定的迭代次数中选择验证集上表现最好的模型。简介:多层感知器
优点:
非线性模型在线学习 学习能力极强缺点:
非凸问题,对网络权重敏感,调整参数过多不容易调参实践建议:
绝大多数问题1层隐含层就足够了(多层不好训练),隐含层神经元个数介于输入层输出层之间权重L2正则权重后期PRuning权重预训练提前终止看学习曲线简介:假设集是特征的线性组合,目标函数是最小二乘,算法是闭解。
优点:
闭解缺点:
模型简单实践建议:
构建新的特征增加模型的复杂度增加L2正则项简介:假设集是特征线性组合的逻辑函数,目标函数是最大似然训练集,损失函数是cross entropy,算法是梯度下降。
优点:
可以得到分类概率缺点:
模型简单实践建议:
LR可以用GD或者SGD训练,SGD效果更快一些简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
简介:
优点:
缺点:
实践建议:
新闻热点
疑难解答