Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】BERT for Joint Intent Classification and Slot Filling

本文是 《BERT for Joint Intent Classification and Slot Filling》 的笔记。 在自然语言理解中,意图分类(Intent Classification)和槽填充(Slot Filling)是两个重要的任务。它们通常受限于规模较小的人工标注训练数据,导致泛化能力较差,特别是对于罕见的词汇。最近,一种新的语言表示模型 ...

【论文笔记】How Do Large Language Models Acquire Factual Knowledge During Pretraining

本文是 《How Do Large Language Models Acquire Factual Knowledge During Pretraining》 的笔记。 尽管最近观察到 LLMs 可以存储大量的事实知识,但对它们通过预训练获取事实知识的机制了解有限。本研究通过研究 LLMs 在预训练期间获取事实知识的方式来填补这一空白。研究结果揭示了关于预训练期间...

【论文笔记】RAG vs Fine-tuning - Pipelines, Tradeoffs, and a Case Study on Agriculture

本文是 《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》 的笔记。 搭建 LLM 应用时,开发人员通常有两种常见的方式来整合专有的领域特定数据:检索增强生成(RAG)和微调。RAG 通过外部数据增强提示信息,而微调则将额外的知识融入到模型本身中。然而,这两种方法的...

【论文笔记】Don’t Stop Pretraining - Adapt Language Models to Domains and Tasks

本文是 《Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks》 的笔记。 基于多种来源文本的预训练语言模型构成了当今自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了是否仍然有必要将预训练模型定制到目标任务的领域。我们在四个领域(生物医学和计算机科学出版物、新闻和评论)和八个...

【论文笔记】The False Promise of Imitating Proprietary LLMs

本文是 《The False Promise of Imitating Proprietary LLMs》 的笔记。 一种廉价改进较弱语言模型的新方法是在较强模型(如 ChatGPT)的输出上进行微调,例如使用较弱的开源模型来廉价模仿专有模型的能力。在本研究中,我们对这种方法进行了批判性分析。我们首先使用不同的基础模型大小(1.5B-13B)、数据源和模仿数据量(...

【论文笔记】LIMA - Less Is More for Alignment

本文是 《LIMA: Less Is More for Alignment》 的笔记。 大型语言模型的训练分为两个阶段:(1)从原始文本进行无监督预训练,学习通用表示;(2)进行大规模指令微调和强化学习,以更好地适应最终任务和用户偏好。通过训练 LIMA,一个具有 65B 参数的 LLaMa 语言模型,我们衡量了这两个阶段的相对重要性。LIMA 仅使用 1,000...

【论文笔记】Agentic Retrieval-Augmented Generation - A Survey on Agentic RAG

本文是 《Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG》 的笔记。 Agentic RAG通过将自治 AI agent 嵌入 RAG 管道,利用 agent 设计模式中的反思(reflection)、规划(planning)、工具使用(tool use)和多代理协作(multi-ag...

【论文笔记】Knowledge Acquisition through Continued Pretraining is Difficult - A Case Study on r/AskHistorians

本文是 《Knowledge Acquisition through Continued Pretraining is Difficult: A Case Study on r/AskHistorians》 的笔记。 像 ChatGPT 这样强大的 LLM 可以掌握各种任务,但在特定领域的限制显著,特别是在要求其复述事实(recite fact)时。这对于越来越多...

【论文笔记】Large Language Models Struggle to Learn Long-Tail Knowledge

本文是《Large Language Models Struggle to Learn Long-Tail Knowledge》的笔记。 在这篇论文中,我们研究了 LLM 所记忆的知识和预训练数据集之间的关系。特别是,我们展示了 LLM 回答基于事实的问题的能力与在预训练期间看到的与该问题相关的文档数量之间的关联。我们通过实体链接(entity linking)预...

【论文笔记】Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs

本文是《Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs》的笔记。 LLMs 在其预训练权重中包含了大量的事实信息,这可以通过它们在不同领域回答各种问题的能力得到证明。然而,这种知识本质上是有限的,严重依赖于训练数据的特征。因此,使用外部数据集来整合新信息或改进 LLMs 对先前已见信息...