机器学习的损失函数

2019-11-06 09:21:39

字体：大中小

来源：转载

供稿：网友

机器学习三方面损失函数交叉熵逻辑回归平方损失函数最小二乘Hinge损失函数SVM指数损失函数AdaBoost对比与总结

机器学习三方面

机器学习问题，大致包含这是哪个方面：

模型：建立什么样的模型目标：怎么定义最大化或最小化的目标函数算法：怎么求解最大或最小化目标函数的优化问题

举个例子：

逻辑回归。模型是y=θ(wx) $y=/theta(wx)$ ；通过最大似然（MLE）构造目标函数；通过SGD求解目标函数。线性回归。模型是y=wx $y=wx$ ；通过最小二乘构建目标函数；通过求解最小二乘得到优化问题的闭解。

机器学习的目的，就是在确定好模型（假设集）的前提下，构建目标函数构建优化问题，然后通过优化算法求解模型的最优参数，通常可以表达成如下式子：

θ=argminθ1N∑i=1NL(yi,f(xi,θ))+λϕ(θ) $/theta = /arg/min_{/theta} /frac{1}{N} /sum_{i=1}^N L(y_i, f(x_i, /theta)) + /lambda /phi(/theta)$

式子左边表示经验风险函数，损失函数是其核心部分；式子右边是正则项。式子整体是结构风险函数，其由经验风险函数和正则项组成。

损失函数

交叉熵（逻辑回归）

逻辑回归的经验风险函数如下：

Ein=1N∑i=1Nlog(1+exp(−ynwTxn)) $E_{in} = /frac{1}{N} /sum_{i=1}^N /log(1+/exp(-y_n w^T x_n))$

其损失函数叫做交叉熵：

L(yn,xn,w)=log(1+exp(−ynwTxn) $L(y_n, x_n, w) = /log(1+/exp(-y_n w^T x_n)$

其函数图像如下（横坐标轴代表ys $ys$ ，即ywTx $yw^Tx$ ）：

这里写图片描述

平方损失函数（最小二乘）

最小二乘的经验风险函数如下：

Ein=1N∑i=1N(yn−wTxn)2 $E_{in} = /frac{1}{N} /sum_{i=1}^N (y_n-w^T x_n)^2$

其损失函数为平方损失函数：

L(yn,xn,w)=(yn−wTxn)2 $L(y_n, x_n, w) =(y_n-w^T x_n)^2$

其函数图像如下（横坐标轴代表ys $ys$ ，即ywTx $yw^Tx$ ）：

这里写图片描述

Hinge损失函数（SVM）

软间隔的SVM有如下表示：

s.t.minb,w,ξ12wTw+C∑n=1Nξnyn(wTxn+b)≥1−ξn,ξn≥0 $/begin{split}&/min _{b,w,/xi}/frac{1}{2} w^Tw + C/sum_{n=1}^N /xi_n //s.t. &y_n(w^Tx_n +b) /ge 1-/xi_n,/xi_n /ge 0/end{split}$

将约束条件放到最小化的式子中得到软间隔SVM的结构风险函数： minb,w,ξ12wTw+C∑n=1Nmax(0,1−yn(wTxn+b)) $/min _{b,w,/xi}/frac{1}{2} w^Tw + C/sum_{n=1}^N /max(0,1-y_n(w^Tx_n +b))$

软间隔SVM的损失函数为Hinge损失函数：

L(yn,xn,w,b)=max(0,1−yn(wTxn+b)) $L(y_n, x_n, w,b) = /max(0,1-y_n(w^Tx_n +b))$

其图像为：

这里写图片描述

指数损失函数（AdaBoost）

在AdaBoost中，数据权重的更新方式为：

u(t+1)nu(t+1)nu(T+1)n∑n=1Nu(T+1)n=u(t)n◊−yngt(xn)=u(t)nexp(−ynαtgt(xn))=1Nexp(−yn∑t=1Tαtgt(xn))=1N∑n=1Nexp(−yn∑t=1Tαtgt(xn)) $/begin{split}u_n^{(t+1)} &= u_n^{(t)} /Diamond^{-y_n g_t(x_n)} //u_n^{(t+1)} &= u_n^{(t)} /exp(-y_n /alpha_t g_t(x_n)) //u_n^{(T+1)} &= /frac{1}{N} /exp(-y_n /sum_{t=1}^T/alpha_t g_t(x_n)) ///sum_{n=1}^N u_n^{(T+1)} &= /frac{1}{N} /sum_{n=1}^N /exp(-y_n /sum_{t=1}^T/alpha_t g_t(x_n))/end{split}$

AdaBoost的训练的目标就是减少∑Nn=1u(T+1)n $/sum_{n=1}^N u_n^{(T+1)}$ ，因此其风险函数为：

1N∑n=1Nexp(−yn∑t=1Tαtgt(xn)) $/frac{1}{N} /sum_{n=1}^N /exp(-y_n /sum_{t=1}^T/alpha_t g_t(x_n))$

其损失函数为：

L(yn,xn,α,g)=exp(−yn∑t=1Tαtgt(xn)) $L(y_n, x_n, /alpha, g) =/exp(-y_n /sum_{t=1}^T/alpha_t g_t(x_n))$

其损失函数的图像为：

这里写图片描述

对比与总结

这里写图片描述

01 loss是最本质的分类损失函数，但是这个函数不易求导，在模型的训练不常用，通常用于模型的评价。squared loss方便求导，缺点是当分类正确的时候随着ys $ys$ 的增大损失函数也增大。cross entropy方便求导，逼近01 loss。Hinge Loss当ys≥1 $ys /ge 1$ ，损失为0，对应分类正确的情况；当ys<1 $ys <1$ 时，损失与ys $ys$ 成正比，对应分类不正确的情况（软间隔中的松弛变量）。exponential loss方便求导，逼近01 loss。squared loss， cross entropy，exponential loss以及hinge loss的左侧都是凸函数，方便求导有利于优化问题的求解；同时这些loss函数都是01 error的上界，可以通过减少loss来实现01问题的求解，即求解分类问题。

上一篇：使用ffmpeg录制屏幕

下一篇：1029 Median