首页 > 学院 > 开发设计 > 正文

线性回归损失函数为什么要用平方形式

2019-11-06 09:28:06
字体:
来源:转载
供稿:网友

我们在前面的《线性回归》中了解到,对于训练数据样本(xi,yi),我们有如下的拟合直线: yˆi=θ0+θ1∙xi 我们构建了一个损失函数: C=∑i=1n(yi−yˆi)2 表示每个训练数据点(xi,yi)到拟合直线yˆi=θ0+θ1∙xi的竖直距离的平方和,通过最小化这个损失函数来求得拟合直线的最佳参数θ,实际上就是求损失函数C在取得最小值情况下θ的值。那么损失函数为什么要用平方差形式呢,而不是绝对值形式,一次方,三次方,或四次方形式?

简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。

最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。对于极大似然估计,可以参考下前期文章《极大似然估计》。 我们设观测输出与预估数据之间的误差为: εi=yi−yˆi 我们通常认为ε服从正态分布,即: f(εi;u,σ2)=1σ2π−−√∙exp[−(εi−u)22σ2] 我们求的参数ε的极大似然估计(u,σ2),即是说,在某个(u,σ2)下,使得服从正态分布的ε取得现有样本εi的概率最大。那么根据极大似然估计函数的定义,令: L(u,σ2)=∏i=1n12π−−√σ∙exp(−(εi−u)22σ2) 取对数似然函数: logL(u,σ2)=−n2logσ2−n2log2π−∑i=1n(εi−u)22σ2 分别求(u,σ2)的偏导数,然后置0,最后求得参数(u,σ2)的极大似然估计为: u=1n∑i=1nεi σ2=1n∑i=1n(εi−u)2 我们在线性回归中要求得最佳拟合直线yˆi=θ0+θ1∙xi,实质上是求预估值yˆi与观测值yi之间的误差εi最小(最好是没有误差)的情况下θ的值。而前面提到过,ε是服从参数(u,σ2)的正态分布,那最好是均值u和方差σ趋近于0或越小越好。即: u=1n∑i=1nεi=1n∑i=1n(yi−yˆi)趋近于0或越小越好 σ2=1n∑i=1n(εi−u)2=1n∑i=1n(yi−yˆi−u)2≈1n∑i=1n(yi−yˆi)2趋近于0或越小越好。 而这与最前面构建的平方形式损失函数本质上是等价的。


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表