Masutangu

也許我這一生 始終在追逐那顆九號球

Test-Time Scaling

在推理过程中,标准的 LLM 模型使用它们预训练的模式来识别输入,并基于概率生成最有可能的输出。这个过程利用算力来分析预训练时学到的知识。较低版本的 LLM 模型不会根据输入的复杂性进行调整,无论查询是简单的,比如“英国的首都是什么?”还是复杂的,比如“解释气候变化的经济影响”,都将使用相同的计算量。这种静态的方式在处理简单任务时效果良好,但在处理需要多步推理和细致...

LLM 幻觉率评估

幻觉检测是确定 LLM 的输出是否得到了输入的支持的任务。通常有两种方法来进行幻觉检测: 构建一个专用的模型/函数 使用 LLM 作为评判器 第一种比第二种更便宜,延迟更低,因为专用模型通常比 LLM 小得多。 Vectara’s HHEM Vectara 的 HHEM 是专门用于捕捉幻觉的判别模型。给定一对文本,HHEM 会生成一个介于 0 和 ...

【论文笔记】Group Relative Policy Optimization (GRPO)

本文是 《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》 中 GRPO 部分的笔记。DeepSeek 引入了 Group Relative Policy Optimization (GRPO),是 Proximal Policy Optimizat...

Deepseek DualPipe

Deepseek DualPipe 主要是结合了 Chimera 和 Zero Bubble 这两篇论文的思想。本文是这两篇论文的笔记。 Chimera INTRODUCTION Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines 提出了名...

训练并行技术

数据并行 Data Parallelism Data Parallelism 是最常见的并行计算形式,数据集被分割成多个片段,每个片段被分配给一个设备。这相当于沿着批次维度并行化训练过程。每个设备有模型副本的完整拷贝,并在分配的数据集片段上进行训练。在反向传播之后,模型的梯度将进行 all-reduced,以保持不同设备上的模型参数同步。 Distribut...

MoE 和 DeepseekMoE

本文简单介绍 MoE 的发展历程和 DeepseekMoE 所做的优化。 Aaptive Mixtures of Local Experts 1991年,混合专家模型(MoE)的创始论文 Adaptive Mixtures of Local Experts 发布。论文提出一个由许多独立网络组成的系统,每个网络学习完整训练集的一个子集。这种学习过程可以将任务划分为...

【论文笔记】Deepseek-V2 - A Strong, Economical, And Efficient Mixture-Of-Experts Language Model

本文是《Deepseek-V2: A Strong, Economical, And Efficient Mixture-Of-Experts Language Model》的笔记。 Abstract 我们介绍了 DeepSeek-V2,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,具有经济高效的训练和推理特性。DeepSeek...

【论文笔记】DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

本文是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》的笔记。 Abstract 我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习(RL)进行训...

【论文笔记】DeepSeek-V3 Technical Report

本文是《DeepSeek-V3 Technical Report》的笔记。 Abstract DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量为 671B,每个 token 激活 37B 参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head La...

【论文笔记】From Local to Global-A Graph RAG Approach to Query-Focused Summarization

本文是《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》的笔记。 摘要 检索增强生成(RAG)用于从外部知识源中检索相关信息,使大型语言模型(LLMs)能够回答关于私有和/或以前未见过的文档集合的问题。然而,RAG 在回答针对整个文本语料库的全局问题时失败,例如“数据集中的主要主题是什么?...