通常,两个以上定性变量不能用线性回归建立模型 线性模型不能保证预测值在0,1之间
logistic function
odds 发生比
范围为0到
log-odds-logit
The left-hand side is called the log-odds or logit. We see that the logistic regression model (4.2) has a logit that is linear in X.
使用极大似然法估计回归系数,对虚拟变量也适用
定义 混淆现象 只用一个预测变量得到的结果可能与多个预测变量得到的结果完全不一样,在这些因素具有相关性时更加明显。
优点:
当类别的区分度很高的时候,logistic regress的参数不稳定,而这点linear Discriminant Analysis不存在。我的理解是0-1的中间区域数据分布不均匀,中间有很大空白导致的。如果样本量n比较小,并且服从正态分布,linear Discriminant Analysis更稳定。分类结果多于两类的情况,linear Discriminant Analysis应用更加普遍贝叶斯定理
正态分布密度函数
把正太分布密度函数代入可得,贝叶斯分类器把观测分到使
最大的一组类别中。但实际上,参数需要进行估计。 LDA使用以下参数估计
其中n为观测总量,
新闻热点
疑难解答