Masutangu

也許我這一生 始終在追逐那顆九號球

优化算法

优化挑战 深度学习优化存在许多挑战,例如局部最小值、鞍点和梯度消失。 局部最小值 目标函数通常有许多局部最优解。当数值解接近局部最优值时,梯度接近或变为零,迭代得到的解可能是局部最优,而不是全局最优。 鞍点 鞍点(saddle point)是指函数的所有梯度都消失但既不是全局最小值也不是局部最小值。比如函数 $f(x)=x^3$: 梯度消失 见...

数值稳定性

多层神经网络基于梯度训练时容易出现训练不稳定。比如下图: 第一层参数的学习速度比最后一层慢了 100 倍以上,这意味着梯度回传过程中越来越小,靠前的神经网络训练比靠后的慢,这个现象称为梯度消失。由于我们网络参数是随机生成的,如果第一层训练不好,意味着很多信息在第一层就丢失了,即使后面几层训练得很好,模型也无法达到预期。 此外,也可能出现梯度在回传过程中越来越...

正则化

过拟合和欠拟合 过度拟合指着模型对训练集的模拟和学习过度贴合。训练时的检测率很高效果很好,但实际检验时效果很差,即泛化能力不足。用于对抗过拟合的技术称为正则化(regularization)。 欠拟合是指模型和数据集间的拟合程度不够,学习不足。可能是学习轮数不够、数据集特征不规则、模型选择有问题等。欠拟合时,模型的泛化能力同样会很差。 权重衰减 Weigh...

注意力机制

查询、键和值 Query & Key-Value 注意力机制中,给定一个查询(query)和一组键值对(key-value pairs)作为输入,通过 Compatibility Function 计算出查询和每个键的关联度,再用计算出的关联度作为权重系数乘以每个键对应的值,得到的加权值(weight sum)作为输出。 An attention ...

循环神经网络

有些场景下我们需要使用序列模型来进行预测,比如: 文本翻译:输入是连续的,需要结合前文进行翻译 股价:需要结合昨天的股价进行预测 自回归模型 使用过去的数据进行预测,即计算 $P(x_t \mid x_{t-1}, \ldots, x_1)$。通常可以对过去的数据进行建模,即: \[P(x_t \mid x_{t-1}, \ldots, x_1)...

卷积神经网络

从全连接层到卷积 全连接层中,每个神经元彼此相连: 在做图像识别时,以 $28 \times 28$ 的图像为例,会将其展平为 $784$($= 28 \times 28$)个元素的向量作为神经网络的输入,但展平后会丢失了像素的空间信息。 而卷积神经网络是局部连接的,并且输入保留了空间信息,因此经常被用于图像识别。卷积神经网络的常见架构如下: 卷积...

极大似然和损失函数

概率 Probability vs. 推断  Inference 在概率论中,通常我们会告知某个事件发生的概率是多少。比如一枚硬币正面朝上的概率是 0.5,在这个前提下,再继续计算复杂事件发生的概率,例如:投 10 次硬币,出现正面朝上的概率是多大? \[\binom{10}{4}\times(0.5^4)\times(0.5^{10-4}) = 0.205\]...

线性回归到深度网络

线性回归与单层神经网络 我们可以用神经网络来描述线性回归模型: 上图所示的神经网络中,输入为 $ x_1, \ldots, x_d $,因此输入层中的输入数(或称为特征维度 feature dimensionality)为 $d$。 网络的输出为 $o_1$,因此输出层中的输出数是 $1$。通常计算神经网络的层数时不考虑输入层,因此上图的神经网络层数为 $1...

线性回归、损失函数以及梯度下降

线性回归 回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。 在机器学习领域中的大多数任务通常都与预测(prediction)有关。 当我们想预测一个或多个连续数值时,就会涉及到回归问题(如果是有限数量的离散数值,则属于分类问题)。 在机器学习领域,通常使用的是高维数据集。当我们的输入包含 $ d $ 个特征时,将所有特征放到向量...

2022, Data Scientist!

很久之前看过乔布斯在斯坦福大学的演讲,关于他人生中的三个故事。其中第一个故事,串联生命中的点点滴滴,给我留下很深刻的印象。 乔布斯因为看不到大学的价值而做出了退学的决定,不用再上那些他并不感兴趣的必修课,而是选修了他自己觉得更有趣的课程,比如美术字课。虽然那时他觉得并不会有什么实际应用,但最终在设计第一台 Macintosh 电脑的时候,他把当初美术字课程里学到的字体设计进了 Mac,也是...