Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】Group Relative Policy Optimization (GRPO)

本文是 《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》 中 GRPO 部分的笔记。DeepSeek 引入了 Group Relative Policy Optimization (GRPO),是 Proximal Policy Optimizat...

Deepseek DualPipe

Deepseek DualPipe 主要是结合了 Chimera 和 Zero Bubble 这两篇论文的思想。本文是这两篇论文的笔记。 Chimera INTRODUCTION Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines 提出了名...

训练并行技术

数据并行 Data Parallelism Data Parallelism 是最常见的并行计算形式,数据集被分割成多个片段,每个片段被分配给一个设备。这相当于沿着批次维度并行化训练过程。每个设备有模型副本的完整拷贝,并在分配的数据集片段上进行训练。在反向传播之后,模型的梯度将进行 all-reduced,以保持不同设备上的模型参数同步。 Distribut...

MoE 和 DeepseekMoE

本文简单介绍 MoE 的发展历程和 DeepseekMoE 所做的优化。 Aaptive Mixtures of Local Experts 1991年,混合专家模型(MoE)的创始论文 Adaptive Mixtures of Local Experts 发布。论文提出一个由许多独立网络组成的系统,每个网络学习完整训练集的一个子集。这种学习过程可以将任务划分为...

【论文笔记】Deepseek-V2 - A Strong, Economical, And Efficient Mixture-Of-Experts Language Model

本文是《Deepseek-V2: A Strong, Economical, And Efficient Mixture-Of-Experts Language Model》的笔记。 Abstract 我们介绍了 DeepSeek-V2,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,具有经济高效的训练和推理特性。DeepSeek...

【论文笔记】DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

本文是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》的笔记。 Abstract 我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习(RL)进行训...

【论文笔记】DeepSeek-V3 Technical Report

本文是《DeepSeek-V3 Technical Report》的笔记。 Abstract DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量为 671B,每个 token 激活 37B 参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head La...

【论文笔记】From Local to Global-A Graph RAG Approach to Query-Focused Summarization

本文是《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》的笔记。 摘要 检索增强生成(RAG)用于从外部知识源中检索相关信息,使大型语言模型(LLMs)能够回答关于私有和/或以前未见过的文档集合的问题。然而,RAG 在回答针对整个文本语料库的全局问题时失败,例如“数据集中的主要主题是什么?...

迎接新一年

又一年过去了,回看去年对 2024 年的期望,还是有些些小失望的。过去一年不能说没有努力,但感觉并没有太多的进步,成就感甚微。在焦虑(想进步)和松弛(降低预期)中来回摇摆。生活上比以往更加知足与感恩,更多地去发掘平凡生活中的幸福感,也算是一种平衡吧。 这段时间我也一直在思考新一年的计划。AI 的发展很快,快得让人焦虑,有无数的人投入进来,每段时间就会有新东西出来。就现在这个阶段而言,自己想...

GraphRAG 笔记

本文是 Microsoft GraphRAG 的笔记。 索引 GraphRAG 的索引 pipeline 由工作流、标准和自定义步骤、提示模板以及输入/输出适配器组成。我们的标准管道旨在: 从原始文本中提取实体(entities)、关系(relationships)和声明(claims) 对实体进行社区检测(community detection) ...