线性回归
回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。 在机器学习领域中的大多数任务通常都与预测(prediction)有关。 当我们想预测一个或多个连续数值时,就会涉及到回归问题(如果是有限数量的离散数值,则属于分类问题)。
在机器学习领域,通常使用的是高维数据集。当我们的输入包含 $ d $ 个特征时,将所有特征放到向量 $\mathbf{x} \in \mathbb{R}^d$ 中, 并将所有权重放到向量 $\mathbf{w} \in \mathbb{R}^d$ 中,用 $\hat{y}$ 表示预测结果,可得:
\[\hat{y} = \mathbf{w}^\top \mathbf{x} + b\]上式中向量 $x$ 对应于单个数据样本的特征。 可以用矩阵 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 表示 $n$ 个样本的数据集。 其中,$\mathbf{X}$ 的每一行是一个样本,每一列是一种特征。
对于特征集合 $\mathbf{X}$,预测值 $\hat{\mathbf{y}} \in \mathbb{R}^n$ 可以通过矩阵-向量乘法表示为:
\[{\hat{\mathbf{y}}} = \mathbf{X} \mathbf{w} + b\]给定训练数据特征 $\mathbf{X}$ 和对应的已知标签 $\mathbf{y}$, 线性回归的目标是找到一组权重向量 $\mathbf{w}$ 和偏置 $b$。当给定从 $\mathbf{X}$ 的同分布中取样的新样本特征时, 这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。
损失函数
在开始考虑如何用模型拟合数据之前,需要知道如何度量模型的拟合程度。损失函数能够量化目标的实际值与预测值之间的差距。 通常我们会选择非负数作为损失,且数值越小表示损失越小,完美预测时的损失为0。 回归问题中最常用的损失函数是均方误差函数。
均绝对误差函数 Mean Absolute Error Function
Mean Absolute Error Function (MAE) 通常也称为 L1 损失函数。当样本 $i$ 的预测值为 $\hat{y}^{(i)}$,其相应的真实标签为 $y^{(i)}$ 时, 均绝对误差可以定义为以下公式:
\[L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{ \sum_{i=1}^n|\hat{y}^{(i)}-y^{(i)}|}{n}\]均方误差函数 Mean Square Error Function
Mean Square Error Function (MSE) 通常也称为 L2 损失函数。当样本 $i$ 的预测值为 $\hat{y}^{(i)}$,其相应的真实标签为 $y^{(i)}$ 时, 平方误差可以定义为以下公式:
\[l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2\]为了度量模型在整个数据集上的质量,我们需计算在训练集 $n$ 个样本上的损失均值:
\[L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2\]Huber Loss
在 MSE 的计算中,异常点会因为平方而进一步放大,导致了异常点会对训练过程造成很大的影响。而 MAE 是取绝对值,异常点的影响不会被放大。MAE 的最优解是中位数形式的,MSE 的最优解是均值形式的,显然中位数对于异常点的影响会更小。
但 MAE 也存在一个问题,特别是对于神经网络来说,它的梯度在极值点处会有很大的跃变。为了解决这个问题,需要在解决极值点的过程中动态减小学习率。MSE 在极值点却有着良好的特性,即使是固定学习率下也能收敛。MSE 的梯度随着损失函数的减小而减小,这一特性使得它在最后的训练过程中能得到更精确的结果。
为了权衡二者的利弊,Huber 在1964年提出了 Huber loss,其形式如下:
\[L_{\delta}= \left\{\begin{matrix} \frac{1}{2}(y - \hat{y})^{2} & if \left | (y - \hat{y}) \right | < \delta\\ \delta ((y - \hat{y}) - \frac1 2 \delta) & otherwise \end{matrix}\right.\]当误差的绝对值小于 $ \delta $ 时采用 MSE,大于 $ \delta $ 时采用 MAE,而且该函数是连续且可微的。
思考:
- 如何证明是连续可微的?
- 为什么要求是连续可微的?
交叉熵损失函数 Cross Entropy Loss
在二分类的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为 $p$ 和 $1-p$ ,样本 $i$ 的真实 label 为 $y_i$ 。此时表达式为:
\[L=\frac{1}{n}\sum\limits_il^{(i)}=\frac{1}{n}\sum\limits_i-{[y_i\log(p_i) + (1 - y_i)\log(1 - p_i)]}\]多分类的情况实际上就是对二分类的扩展:
\[L=\frac{1}{n}\sum\limits_il^{(i)}=-\frac{1}{n}\sum\limits_i\sum_{c=1}^My_{i,c}\log(p_{i,c})\]其中:
- $M$ 表示 label 的数量,即总类别数
- $y_{i,c}$ 表示如果样本 $i$ 的真实 label 为 $c$ 则取 $1$,否则取 $0$
- $p_{i,c}$ 表示观察样本 $i$ 的 label 为 $c$ 的预测概率
样例
预测 | 真实 | 正确性 |
---|---|---|
0.3 0.3 0.4 | 0 0 1 (猪) | 正确 |
0.3 0.4 0.3 | 0 1 0 (狗) | 正确 |
0.1 0.2 0.7 | 1 0 0 (猫) | 错误 |
由:
\[l^{(1)}=-(0 \times log0.3 + 0 \times log0.3 + 1 \times log0.4) = 0.91\] \[l^{(2)}=-(0 \times log0.3 + 1 \times log0.4 + 0 \times log0.3) = 0.91\] \[l^{(3)}=-(1 \times log0.1 + 0 \times log0.2 + 1 \times log0.7) = 2.30\]可得:
\[L = \frac{0.91+0.91+2.30}{3} = 1.37\]损失函数数学推导
损失函数对比
- MSE 适用于回归问题,不适用于分类问题
- MSE 预测值和目标值的欧式距离。分类问题中 label 值的大小在欧氏空间中是没有意义的。所以分类问题不适合用 mse 作为损失函数。
- 分类问题属于逻辑回归,必须有激活函数这个非线性单元在,通常是 sigmoid(也可以是其他非线性激活函数) 逻辑回归为什么用Sigmoid。MSE + sigmoid 会有梯度消失的问题(见下一篇文章《线性回归到深度网络》),导致学习速率慢。另一方面,MSE 的导数是非凸函数,有多个极值点,求解最优解困难。
- 交叉熵适用于分类问题,不适用于回归问题
- 交叉熵是信息论的概念。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。
- 交叉熵损失函数只和分类正确的预测结果有关系,而 MSE 的损失函数还和错误的分类有关系,该分类函数除了让正确的分类尽量变大,还会让错误的分类变得平均,在分类问题中这个调整是没有必要的。但是对于回归问题来说,这样的考虑就显得很重要了。所以,回归问题熵使用交叉上并不合适。
- 思考:交叉熵是否也存在梯度消失的问题?
梯度下降 Gradient Descent
前面提到,损失函数是量化目标的实际值与预测值间的差距,损失函数越小意味着我们的预测越贴近真实值,因此我们的目标是最小化损失函数。而最常见的方法,就是梯度下降。
感官认识
把损失函数的值想象成一座山,寻找损失函数的最小值,可以理解寻找山的最低点。我们只需要沿着向下的斜坡一直走,就可以找到局部最低点:
梯度下降就是这样一个思路,梯度可以理解为坡度,梯度下降可以理解为朝着下坡的方向前进。
梯度的定义
导数、偏导数以及方向导数
一元函数的情况下,导数就是函数的变化率,从几何意义上看,切点处的导数值就是切线的斜率。
偏导数是多元函数“退化”成一元函数时的导数,这里“退化”的意思是固定其他自变量的值,只保留一个自变量,则 $N$ 元函数有 $N$ 个偏导数。一个自变量对应一个坐标轴,偏导数为函数在每个位置处沿着自变量坐标轴方向上的导数(切线斜率)。
如果是方向不是沿着坐标轴方向,而是任意方向,则为方向导数。方向导数是函数在任意方向上的导数。具体地,定义 $xy$ 平面上一点 $(a,b)$ 以及单位向量 $\vec{u}=(cos\theta, sin\theta)$,在曲面 $z=f(x,y)$ 上,从点 $(a,b,f(a,b))$ 出发,沿 $\vec{u}=(cos\theta, sin\theta)$ 方向走 $t$ 单位长度后,函数值 $z$ 为$F(t)=f(a+tcosθ,b+tsinθ)$,则点 $(a,b)$ 处 $\vec{u}=(cos\theta, sin\theta)$ 方向的方向导数为:
\[\begin{align} & \quad \frac{d}{dt}f(a+tcos\theta, b+tsin\theta)\\ &= \mathop{lim}\limits_{t\rightarrow0}\frac{f(a+tcos\theta, b+tsin\theta)-f(a,b)}{t} \\ &=\mathop{lim}\limits_{t\rightarrow0}\frac{f(a+tcos\theta, b+tsin\theta)-f(a,b+tsin\theta)}{t}+\mathop{lim}\limits_{t\rightarrow0}\frac{f(a, b+tsin\theta)-f(a,b)}{t} \\ &= \frac{\partial}{\partial x}f(a,b)\frac{dx}{dt} + \frac{\partial}{\partial y}f(a,b)\frac{dy}{dt} \\ &= f_x(a, b)cos\theta + f_y(a,b)sin\theta \\ &= (f_x(a,b), f_y(a,b))\cdot(cos\theta, sin\theta) \end{align}\]其中,$f_x(a,b)$ 和 $f_y(a,b)$ 分别为函数在 $(a,b)$ 位置的偏导数。由上面的推导可知,方向导数是偏导数的线性组合,系数为该方向的单位向量。当该方向与坐标轴正方向一致时,方向导数即偏导数,换句话说,偏导数为坐标轴方向上的方向导数。
梯度
梯度,通常用数学符号 $\nabla$ 表示。 二元时为 $(\frac{∂z}{∂x},\frac{∂z}{∂y})$,多元时为 $(\frac{∂z}{∂x},\frac{∂z}{∂y},…)$。
继续上面方向导数的推导,$(a,b)$ 处 $\theta$ 方向上的方向导数为
\[\begin{align} & \quad (f_x(a,b), f_y(a,b))\cdot(cos\theta, sin\theta)\\ &=|(f_x(a,b), f_y(a,b))|\cdot|1|\cdot cos\phi \\ &= |\nabla f(a,b)|\cdot cos\phi \end{align}\]其中 $ \phi $ 为 $ \nabla f(a,b) $ 与 $ \vec{u} $ 的夹角。当 $ \phi = 0 $ 即 $ \vec{u} $ 与梯度 $ \nabla f(a,b) $ 同向时,方向导数取最大值,最大值为 $ |\nabla f(a,b)| $。当 $ \phi = \pi $ 即 $ \vec{u} $ 与梯度 $ \nabla f(a,b) $ 反向时,方向导数取最小值,为 $ -|\nabla f(a,b)|$。
至此引入梯度的几何意义:
- 给定位置的梯度方向,为函数在该位置处方向导数最大的方向,也是函数值上升最快的方向,反方向为下降最快的方向
- 当前位置的梯度长度(模),为最大方向导数的值
总结
- 偏导数构成的向量为梯度
- 方向导数为梯度在该方向上的线性合成,系数为该方向的单位向量
- 梯度方向为方向导数最大的方向,梯度的模为最大的方向导数
梯度下降
前面提到梯度方向即函数值上升最快的方向,如果我们要寻找损失函数的最小值,那只需要朝着损失函数的梯度的反方向前进即可。定义损失函数 $L(\mathbf{w}, b)$,其梯度为:
\[\nabla L(\mathbf{w},b) = (\frac{\partial L(\mathbf{w},b)}{\partial \mathbf{w}}, \frac{\partial L(\mathbf{w},b)}{\partial b})\]想找到损失函数的局部最小值,需要沿着梯度的反方向更新参数值,直到收敛:
\[\begin{align} repeat \ \ until \ \ convergence \ \ \{ \\ & \mathbf{w} \leftarrow \mathbf{w} - \alpha\frac{\partial L(\mathbf{w},b)}{\partial \mathbf{w}} \\ & b \leftarrow b - \alpha\frac{\partial L(\mathbf{w},b)}{\partial b} \\ \} \end{align}\]其中 $\alpha$ 表示更新步长,也称为学习率。步长如果太小,则迭代速度太慢,步长如果过大,则可能出现不收敛,如下图:
梯度下降算法
批量梯度下降法 Batch Gradient Descent
Batch Gradient Descent(BGD)使用全部的样本进行梯度计算并更新参数。
- 优点:稳定,可收敛。
- 缺点:计算量大耗时大,内存占用大,稳定意味着容易陷入局部最优。
随机梯度下降法 Stochastic Gradient Descent
Stochastic Gradient Descent(SGD)区别在与每次随机选取一个样本计算梯度并更新参数。
- 优点:快,不容易陷入局部最优。
- 缺点:噪音较 BGD 要多,使得 SGD 并不是每次迭代都向着整体最优化方向。
小批量梯度下降法 Mini-batch Gradient Descent
Mini-batch Gradient Descent(MBGD)是批量梯度下降法和随机梯度下降法的折衷,每次随机选一批样本计算梯度并更新参数。MBGD 是最常在实践中使用的梯度下降算法。
梯度下降法和其他无约束优化算法的比较
在机器学习中的无约束优化算法,除了梯度下降以外,还有最小二乘法,此外还有牛顿法和拟牛顿法。
梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。
梯度下降法和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。