Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】Deep Residual Learning for Image Recognition

本文是 《Deep Residual Learning for Image Recognition》 的笔记。 深度神经网络更难训练,我们提出了一种残差(residual)学习框架,以简化训练比以前更深的网络。我们明确地将层重新定义为学习相对于层输入的残差函数,而不是学习无参考函数。我们提供了全面的实证证据,表明这些残差网络更容易优化,并且可以从显著增加的深度中获...

【学习笔记】Evaluation Metrics for Language Modeling

本文是 《Evaluation Metrics for Language Modeling》 的笔记。 通常情况下,语言模型的性能可以通过困惑度(perplexity)、交叉熵(cross entropy)和每字符比特数(bits-per-character,BPC)来衡量。随着语言模型越来越多地被用作其他自然语言处理任务的预训练模型,它们通常也会根据在下游任务上...

【论文笔记】Prediction and Entropy of Printed English

本文是 《Prediction and Entropy of Printed English》 的部分笔记。 Introduction 熵是一种统计参数,从某种意义上衡量了在该语言的文本中,每个字母平均产生多少信息。如果将语言以最有效的方式转换为二进制数字(0 或 1),那么熵就是原始语言中每个字母平均所需的二进制位数。另一方面,冗余度衡量的是由于语言的统计结构...

【论文笔记】Improving Retrieval for RAG based Question Answering Models on Financial Documents

本文是 《Improving Retrieval for RAG based Question Answering Models on Financial Documents》 的笔记。 Limitations of Current RAG Pipelines 传统的 RAG 架构在知识密集型和领域特定的自然语言处理任务中面临许多限制,影响了其有效性。大多数 R...

【论文笔记】BERT for Joint Intent Classification and Slot Filling

本文是 《BERT for Joint Intent Classification and Slot Filling》 的笔记。 在自然语言理解中,意图分类(Intent Classification)和槽填充(Slot Filling)是两个重要的任务。它们通常受限于规模较小的人工标注训练数据,导致泛化能力较差,特别是对于罕见的词汇。最近,一种新的语言表示模型 ...

【论文笔记】How Do Large Language Models Acquire Factual Knowledge During Pretraining

本文是 《How Do Large Language Models Acquire Factual Knowledge During Pretraining》 的笔记。 尽管最近观察到 LLMs 可以存储大量的事实知识,但对它们通过预训练获取事实知识的机制了解有限。本研究通过研究 LLMs 在预训练期间获取事实知识的方式来填补这一空白。研究结果揭示了关于预训练期间...

【论文笔记】RAG vs Fine-tuning - Pipelines, Tradeoffs, and a Case Study on Agriculture

本文是 《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》 的笔记。 搭建 LLM 应用时,开发人员通常有两种常见的方式来整合专有的领域特定数据:检索增强生成(RAG)和微调。RAG 通过外部数据增强提示信息,而微调则将额外的知识融入到模型本身中。然而,这两种方法的...

【论文笔记】Don’t Stop Pretraining - Adapt Language Models to Domains and Tasks

本文是 《Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks》 的笔记。 基于多种来源文本的预训练语言模型构成了当今自然语言处理的基础。鉴于这些广泛覆盖模型的成功,我们研究了是否仍然有必要将预训练模型定制到目标任务的领域。我们在四个领域(生物医学和计算机科学出版物、新闻和评论)和八个...

【论文笔记】The False Promise of Imitating Proprietary LLMs

本文是 《The False Promise of Imitating Proprietary LLMs》 的笔记。 一种廉价改进较弱语言模型的新方法是在较强模型(如 ChatGPT)的输出上进行微调,例如使用较弱的开源模型来廉价模仿专有模型的能力。在本研究中,我们对这种方法进行了批判性分析。我们首先使用不同的基础模型大小(1.5B-13B)、数据源和模仿数据量(...

【论文笔记】LIMA - Less Is More for Alignment

本文是 《LIMA: Less Is More for Alignment》 的笔记。 大型语言模型的训练分为两个阶段:(1)从原始文本进行无监督预训练,学习通用表示;(2)进行大规模指令微调和强化学习,以更好地适应最终任务和用户偏好。通过训练 LIMA,一个具有 65B 参数的 LLaMa 语言模型,我们衡量了这两个阶段的相对重要性。LIMA 仅使用 1,000...