首页 > 学院 > 开发设计 > 正文

ISLR第四章

2019-11-06 08:39:32
字体:
来源:转载
供稿:网友

ISLR第四章的理解

为什么线性回归不可用

通常,两个以上定性变量不能用线性回归建立模型 线性模型不能保证预测值在0,1之间

The Logistic Model

logistic function

p(X)=eβ0+β1X1+eβ0+β1X

odds 发生比

p(X)1−p(X)=eβ0+β1X

范围为0到

log-odds-logit

log(p(X)1−p(X))=β0+β1X

The left-hand side is called the log-odds or logit. We see that the logistic regression model (4.2) has a logit that is linear in X.

使用极大似然法估计回归系数,对虚拟变量也适用

ℓ(β0,β1)=∏i:yi=1p(xi)∏i′:yi=0(1−p(xi′))

Multiple Logistic Model

p(X)=eβ0+β1X1+⋯+βnXn1+eβ0+β1X1+⋯+βnXn

定义 混淆现象 只用一个预测变量得到的结果可能与多个预测变量得到的结果完全不一样,在这些因素具有相关性时更加明显。

Linear Discriminant Analysis

优点:

当类别的区分度很高的时候,logistic regress的参数不稳定,而这点linear Discriminant Analysis不存在。我的理解是0-1的中间区域数据分布不均匀,中间有很大空白导致的。如果样本量n比较小,并且服从正态分布,linear Discriminant Analysis更稳定。分类结果多于两类的情况,linear Discriminant Analysis应用更加普遍

运用贝叶斯定理进行分类

贝叶斯定理

px(X)=Pr(Y=k|X=x)=πkfk(x)∑Ki=1πifi(x)

正态分布密度函数

fk(x)=12π√σexp(−12σ2k(x−μk)2)

把正太分布密度函数代入可得,贝叶斯分类器把观测分到使

δk(x)=x⋅μkσ2−μ2k2σ2+logπk

最大的一组类别中。但实际上,参数需要进行估计。 LDA使用以下参数估计

μ^k=1n∑i:yi=kxi

σ^2=1n−K∑Kk=1∑i:yi=k(xi−μ^k)2

π^k=nkn

其中n为观测总量,nk为属于第k类的量,μk为第k类观测的均值。 贝叶斯决策边界

x=μ1+μ22


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表