Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】Don’t Stop Pretraining - Adapt Language Models to Domains and Tasks

本文是 《Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks》 的笔记。 基于多种来源文本的预训练语言模型构成了当今自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了是否仍然有必要将预训练模型定制到目标任务的领域。我们在四个领域(生物医学和计算机科学出版物、新闻和评论)和八个...

【论文笔记】The False Promise of Imitating Proprietary LLMs

本文是 《The False Promise of Imitating Proprietary LLMs》 的笔记。 一种廉价改进较弱语言模型的新方法是在较强模型(如 ChatGPT)的输出上进行微调,例如使用较弱的开源模型来廉价模仿专有模型的能力。在本研究中,我们对这种方法进行了批判性分析。我们首先使用不同的基础模型大小(1.5B-13B)、数据源和模仿数据量(...

【论文笔记】LIMA - Less Is More for Alignment

本文是 《LIMA: Less Is More for Alignment》 的笔记。 大型语言模型的训练分为两个阶段:(1)从原始文本进行无监督预训练,学习通用表示;(2)进行大规模指令微调和强化学习,以更好地适应最终任务和用户偏好。通过训练 LIMA,一个具有 65B 参数的 LLaMa 语言模型,我们衡量了这两个阶段的相对重要性。LIMA 仅使用 1,000...

【论文笔记】Agentic Retrieval-Augmented Generation - A Survey on Agentic RAG

本文是 《Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG》 的笔记。 Agentic RAG通过将自治 AI agent 嵌入 RAG 管道,利用 agent 设计模式中的反思(reflection)、规划(planning)、工具使用(tool use)和多代理协作(multi-ag...

【论文笔记】Knowledge Acquisition through Continued Pretraining is Difficult - A Case Study on r/AskHistorians

本文是 《Knowledge Acquisition through Continued Pretraining is Difficult: A Case Study on r/AskHistorians》 的笔记。 像 ChatGPT 这样强大的 LLM 可以掌握各种任务,但在特定领域的限制显著,特别是在要求其复述事实(recite fact)时。这对于越来越多...

【论文笔记】Large Language Models Struggle to Learn Long-Tail Knowledge

本文是《Large Language Models Struggle to Learn Long-Tail Knowledge》的笔记。 在这篇论文中,我们研究了 LLM 所记忆的知识和预训练数据集之间的关系。特别是,我们展示了 LLM 回答基于事实的问题的能力与在预训练期间看到的与该问题相关的文档数量之间的关联。我们通过实体链接(entity linking)预...

【论文笔记】Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

本文是《Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs》的笔记。 LLMs 在其预训练权重中包含了大量的事实信息,这可以通过它们在不同领域回答各种问题的能力得到证明。然而,这种知识本质上是有限的,严重依赖于训练数据的特征。因此,使用外部数据集来整合新信息或改进 LLMs 对先前已见信息...

【论文笔记】Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

本文是 《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》 的笔记。 通过利用更多的测试时间计算使 LLM 改进其输出是构建能够处理开放式自然语言的自我改进代理的关键步骤。在本文中,我们研究了 LLM 中推理时间计算的扩展。在这项...

Test-Time Scaling

在推理过程中,标准的 LLM 模型使用它们预训练的模式来识别输入,并基于概率生成最有可能的输出。这个过程利用算力来分析预训练时学到的知识。较低版本的 LLM 模型不会根据输入的复杂性进行调整,无论查询是简单的,比如“英国的首都是什么?”还是复杂的,比如“解释气候变化的经济影响”,都将使用相同的计算量。这种静态的方式在处理简单任务时效果良好,但在处理需要多步推理和细致...

LLM 幻觉率评估

幻觉检测是确定 LLM 的输出是否得到了输入的支持的任务。通常有两种方法来进行幻觉检测: 构建一个专用的模型/函数 使用 LLM 作为评判器 第一种比第二种更便宜,延迟更低,因为专用模型通常比 LLM 小得多。 Vectara’s HHEM Vectara 的 HHEM 是专门用于捕捉幻觉的判别模型。给定一对文本,HHEM 会生成一个介于 0 和 ...