概率 Probability vs. 推断 Inference

在概率论中，通常我们会告知某个事件发生的概率是多少。比如一枚硬币正面朝上的概率是 0.5，在这个前提下，再继续计算复杂事件发生的概率，例如：投 10 次硬币，出现正面朝上的概率是多大？

\[\binom{10}{4}\times(0.5^4)\times(0.5^{10-4}) = 0.205\]

而在统计学中，相反，我们不知道某事件发生的概率，而是通过观察得到数据，比如观察投 10 次硬币，观察到有 4 次硬币朝上。通过观察的数据来计算出符合观察结果的“最佳”概率估计。似然法 (likelihood) 就是我們进行概率估算的最佳手段。

似然函数和极大似然

在概率论和统计学中，二项分布是 $n$ 个独立的成功/失败试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。一般如果随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，我们记为 $X\sim B(n,p)$。$n$ 次试验中正好得到 $k$ 次成功的概率由概率质量函数给出：

\[P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}\]

以上述抛硬币为例，我們假定硬币朝上与否是一个服从二项分布的随机变量，$X\sim B(10,\pi)$。我们观察到，10 次实验中有 4 次硬币朝上，即 $k=4$：

\[P(X=4)=\binom{10}{4}p^4(1-p)^{10-4}\]

此时硬币朝上的概率 $p$ 未知，而我们想要知道，$p$ 取多少时，$P(X=4)$ 的值会最大？即单次抛硬币朝上的概率 $p$ 为多少时，10 次实验中出现 4 次硬币朝上的概率最大？

因此问题可以转化为，定义一个关于概率 $p$ 的函数：

\[L(p|X=4)=\binom{10}{4}p^4(1-p)^{10-4}\]

找到对应的 $p$ 值使得该函数的值最大，这个函数也称为似然函数。

对数似然函数

似然函数的最大值，也可以通过求似然函数的对数函数的最大值获得。

证明：当方程 $L(p)$ 的對數方程 $\text{log}L(p)$ 是最大值时，$L(p)$ 也是最大值。

如果 $L(p)$ 是连续可导，只有一个最大值，且可以二次求导。则当 $L(p)$ 取最大值时满足：

\[\frac{dL}{d\theta}=0, \ \frac{d^2L}{d\theta^2}<0\]

令 $\ell=\text{log}L$，由 $\frac{d\ell}{dL}=\ell^\prime=\frac{1}{L}$ 可得：

\[\frac{d\ell}{d\theta}=\frac{d\ell}{dL}\cdot\frac{dL}{d\theta}=\frac{1}{L}\cdot\frac{dL}{d\theta}\]

当 $\ell(p)$ 取最大值时：

\[\begin{align} \frac{d\ell}{d\theta} & =0\Leftrightarrow\frac{1}{L}\cdot\frac{dL}{d\theta}=0\\ & \because \frac{1}{L}\neq0 \\ & \therefore \frac{dL}{d\theta}=0 \end{align}\] \[\begin{align} \frac{d^2\ell}{d\theta^2} &= \frac{d}{d\theta}(\frac{d\ell}{dL}\cdot\frac{dL}{d\theta})\\ &= \frac{d\ell}{dL}\cdot\frac{d^2L}{d\theta^2} + \frac{dL}{d\theta}\cdot\frac{d}{d\theta}(\frac{d\ell}{dL}) \end{align}\]

$\frac{d^2\ell}{d\theta^2}<0$ 且 $\frac{dL}{d\theta}=0$，因为 $L$ 表示概率 $L \ge 0$，所以 $\frac{d\ell}{dL} = \frac{1}{L} \ge 0$，可得 $\frac{d^2L}{d\theta^2}<0$ 。

因此如果 $\ell(p)$ 取最大值，可以推导出 $\frac{dL}{d\theta}=0$ 且 $\frac{d^2L}{d\theta^2}<0$ ，因此 $L(p)$ 也为最大值。

对数的好处是在于可以把乘除转化为加减。当有多个独立的观察时，总似然函数等于各个观察值的似然函数的乘积：

\[L(\theta|x_1,\cdots,x_n)=f(x_1,\cdots,x_n|\theta)=\prod_{i=1}^nf(x_i|\theta)\]

如果用对数似然函数表示，则变成各个观察值的对数似然函数的和：

\[\ell(\theta|x_1,\cdots,x_n)=\sum_{i=1}^n\text{log}(f(x_i|\theta))\]

极大似然和损失函数

最大似然函数可以推导出不同的损失函数。分类问题中（包括二分类和多分类），可推导出交叉熵损失函数；在回归问题中，可以推导出均方差损失。

均方差损失

假定我们有一个观测的数据集 $\mathbf{x} = (x_1, . . . , x_N )^T$ ，表示标量变量 $x$ 的 $N$ 次观测。我们假定各次观测是独立地从高斯分布中抽取的，分布的均值 $\mu$ 和方差 $\sigma^2$ 未知，希望根据数据集来确定这些参数。由于我们的数据集 $\mathbf{x}$ 是独立同分布的，因此给定 $\mu$ 和 $\sigma^2$，我们可以给出数据集的概率：

\[p(\mathbf{x}|\mu,\sigma^2)= \prod\limits_{n=1}^{N}\mathcal N(x_n|\mu, \sigma^2)\]

当把上式看成 $\mu$ 和 $\sigma$ 的函数时，其就是高斯分布的似然函数。如下图：

高斯概率分布的似然函数，由红色曲线表示。这里，黑点表示数据集 ${x_n}$的值，似然函数对应于蓝色值的乘积。最大化似然函数涉及到调节高斯分布的均值和方差，使得这个乘积最大。

前面提到，最大化某个函数的对数等价于最大化这个函数。

\[\ln p(\mathbf{x}|\mu, \sigma^2)=-\frac{1}{2\sigma^2}\sum\limits_{n=1}^N(x_n-\mu)^2 - \frac{N}{2}\ln \sigma^2-\frac{N}{2}\ln(2\pi)\]

关于$\mu$，最大化该函数，可得最大似然解：

\[\mu_{ML}=\frac{1}{N}\sum\limits_{n=1}^Nx_n\]

关于 $\sigma^2$，最大化该函数：

\[\sigma^2 = \mathop{\operatorname{arg\,max}}\limits_\sigma \sum\limits_{n=1}^N(-\frac{\ln\sigma^2}{2}-\frac{1}{2\sigma^2}(x_n-\mu)^2)\]

单调递增，导数为 0 时为最大值，用 $\delta$ 表示 $\sigma^2$，即：

\[\frac{\partial}{\partial\delta}\sum\limits_{n=1}^N(-\frac{\ln\delta}{2}-\frac{1}{2\delta}(x_n-\mu)^2)=0\] \[\sum\limits_{n=1}^N(-\frac{1}{2\delta}+\frac{1}{2}(x_n - \mu)^2\delta^{-2}) = 0\] \[\sum\limits_{n=1}^N(-\frac{1}{\delta}+(x_n - \mu)^2\delta^{-2}) = 0\] \[\sum\limits_{n=1}^N(-\delta+(x_n - \mu)^2) = 0\]

可得当 $\delta = \frac{1}{N}\sum\limits_{n=1}^N(x_n - \mu)^2$ 时导数为 0，似然方程为最大值，最大似然解：

\[\sigma^2 = \frac{1}{N}\sum\limits_{n=1}^N(x_n - \mu)^2\]

注：在高斯分布的情况下，$\mu$ 的解和 $\sigma^2$ 无关，因此可以首先求解 $\mu$ 再求解 $\sigma^2$。

因此，最大化似然函数等价于最小化均方差损失。

交叉熵损失

K 分类问题下，单个样本服从的分布如下：

\[p(y|x;p)=\prod\limits_{k=1}^Kp_k^{y_k}\]

则 N 个样本下的似然函数为：

\[L(p(X))=\prod\limits_{n=1}^N\prod\limits_{k=1}^Kp_k^{y_k}\]

最大化似然函数，即最小化负对数似然函数：

\[min -\sum\limits_{n=1}^N \sum\limits_{k=1}^K y_k log p_k\]

上式也即是多分类下常用的交叉熵损失函数。因为是多分类问题，一个样本只属于一个分类，即只有一个 $y_k$ 等于 1。故上述函数可简化为：

\[min -\sum\limits_{n=1}^N log P(y_k=1)\]

极大似然和损失函数

概率 Probability vs. 推断 Inference

似然函数和极大似然

对数似然函数

极大似然和损失函数

均方差损失

交叉熵损失

参考文献

FEATURED TAGS

FRIENDS