Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】Knowledge Acquisition through Continued Pretraining is Difficult - A Case Study on r/AskHistorians

本文是 《Knowledge Acquisition through Continued Pretraining is Difficult: A Case Study on r/AskHistorians》 的笔记。 像 ChatGPT 这样强大的 LLM 可以掌握各种任务,但在特定领域的限制显著,特别是在要求其复述事实(recite fact)时。这对于越来越多...

【论文笔记】Large Language Models Struggle to Learn Long-Tail Knowledge

本文是《Large Language Models Struggle to Learn Long-Tail Knowledge》的笔记。 在这篇论文中,我们研究了 LLM 所记忆的知识和预训练数据集之间的关系。特别是,我们展示了 LLM 回答基于事实的问题的能力与在预训练期间看到的与该问题相关的文档数量之间的关联。我们通过实体链接(entity linking)预...

【论文笔记】Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

本文是《Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs》的笔记。 LLMs 在其预训练权重中包含了大量的事实信息,这可以通过它们在不同领域回答各种问题的能力得到证明。然而,这种知识本质上是有限的,严重依赖于训练数据的特征。因此,使用外部数据集来整合新信息或改进 LLMs 对先前已见信息...

【论文笔记】Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

本文是 《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》 的笔记。 通过利用更多的测试时间计算使 LLM 改进其输出是构建能够处理开放式自然语言的自我改进代理的关键步骤。在本文中,我们研究了 LLM 中推理时间计算的扩展。在这项...

Test-Time Scaling

在推理过程中,标准的 LLM 模型使用它们预训练的模式来识别输入,并基于概率生成最有可能的输出。这个过程利用算力来分析预训练时学到的知识。较低版本的 LLM 模型不会根据输入的复杂性进行调整,无论查询是简单的,比如“英国的首都是什么?”还是复杂的,比如“解释气候变化的经济影响”,都将使用相同的计算量。这种静态的方式在处理简单任务时效果良好,但在处理需要多步推理和细致...

LLM 幻觉率评估

幻觉检测是确定 LLM 的输出是否得到了输入的支持的任务。通常有两种方法来进行幻觉检测: 构建一个专用的模型/函数 使用 LLM 作为评判器 第一种比第二种更便宜,延迟更低,因为专用模型通常比 LLM 小得多。 Vectara’s HHEM Vectara 的 HHEM 是专门用于捕捉幻觉的判别模型。给定一对文本,HHEM 会生成一个介于 0 和 ...

【论文笔记】Group Relative Policy Optimization (GRPO)

本文是 《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》 中 GRPO 部分的笔记。DeepSeek 引入了 Group Relative Policy Optimization (GRPO),是 Proximal Policy Optimizat...

Deepseek DualPipe

Deepseek DualPipe 主要是结合了 Chimera 和 Zero Bubble 这两篇论文的思想。本文是这两篇论文的笔记。 Chimera INTRODUCTION Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines 提出了名...

训练并行技术

数据并行 Data Parallelism Data Parallelism 是最常见的并行计算形式,数据集被分割成多个片段,每个片段被分配给一个设备。这相当于沿着批次维度并行化训练过程。每个设备有模型副本的完整拷贝,并在分配的数据集片段上进行训练。在反向传播之后,模型的梯度将进行 all-reduced,以保持不同设备上的模型参数同步。 Distribut...

MoE 和 DeepseekMoE

本文简单介绍 MoE 的发展历程和 DeepseekMoE 所做的优化。 Aaptive Mixtures of Local Experts 1991年,混合专家模型(MoE)的创始论文 Adaptive Mixtures of Local Experts 发布。论文提出一个由许多独立网络组成的系统,每个网络学习完整训练集的一个子集。这种学习过程可以将任务划分为...