Masutangu

也許我這一生 始終在追逐那顆九號球

【读书笔记】Foundations-of-LLMs 参数高效微调

本文是《Foundations-of-LLMs》 第四章【参数高效微调】的笔记。 主流的下游任务适配方法有两种:上下文学习(In-context learning)和指令微调(Instruction Tuning)。 上下文学习的核心思想是将不同类型的任务都转化为生成任务,通过设计 Prompt 来驱动大语言模型完成下游任务。上下文学习能有效利用大语言模型的能力...

【读书笔记】Foundations-of-LLMs Prompt 工程

本文是《Foundations-of-LLMs》 第三章【Prompt 工程】的笔记。 Prompt 工程简介 经过良好设计的 Prompt 通常由任务说明、上下文、问题、输出格式四个基本元素组成: 任务说明——向模型明确提出具体的任务要求。任务说明应当清晰、直接,并尽可能详细地描述期望模型完成的任务。 上下文——向模型提供的任务相关背景信息,用以增...

【读书笔记】Foundations-of-LLMs 大语言模型架构

本文是《Foundations-of-LLMs》 第二章【大语言模型架构】的笔记。 大数据 + 大模型 → 新智能 Kaplan-McCandlish 扩展法则 2020 年,OpenAI 团队的 Jared Kaplan 和Sam McCandlish 等人首次探究了神经网络的性能与数据规模 $D$ 以及模型规模 $N$ 之间的函数关系。他们在不同规 模的数...

【论文笔记】Transformer Feed-Forward Layers Are Key-Value Memories

本文是 《Transformer Feed-Forward Layers Are Key-Value Memories》 的笔记。 前馈层占据了 Transformer 模型参数的三分之二,然而它们在网络中的作用仍未得到充分探索。我们展示了基于 Transformer 的语言模型中的前馈层作为键-值记忆的功能,其中每个键与训练示例中的文本模式相关联,每个值引导输出...

【读书笔记】Foundations-of-LLMs 语言模型基础

本文是《Foundations-of-LLMs》 第一章【语言模型基础】的笔记。 基于统计方法的语言模型 n-grams 语言模型是在 n 阶马尔可夫假设下,对语料库中出现的长度为 n 的词序列出现概率的极大似然估计。 n-grams 语言模型通过依次统计文本中的 n-gram 及其对应的 (n-1)-gram 在语料库中出现的相对频率来计算文本 $w_{1:...

【论文笔记】Deep Residual Learning for Image Recognition

本文是 《Deep Residual Learning for Image Recognition》 的笔记。 深度神经网络更难训练,我们提出了一种残差(residual)学习框架,以简化训练比以前更深的网络。我们明确地将层重新定义为学习相对于层输入的残差函数,而不是学习无参考函数。我们提供了全面的实证证据,表明这些残差网络更容易优化,并且可以从显著增加的深度中获...

【学习笔记】Evaluation Metrics for Language Modeling

本文是 《Evaluation Metrics for Language Modeling》 的笔记。 通常情况下,语言模型的性能可以通过困惑度(perplexity)、交叉熵(cross entropy)和每字符比特数(bits-per-character,BPC)来衡量。随着语言模型越来越多地被用作其他自然语言处理任务的预训练模型,它们通常也会根据在下游任务上...

【论文笔记】Prediction and Entropy of Printed English

本文是 《Prediction and Entropy of Printed English》 的部分笔记。 Introduction 熵是一种统计参数,从某种意义上衡量了在该语言的文本中,每个字母平均产生多少信息。如果将语言以最有效的方式转换为二进制数字(0 或 1),那么熵就是原始语言中每个字母平均所需的二进制位数。另一方面,冗余度衡量的是由于语言的统计结构...

【论文笔记】Improving Retrieval for RAG based Question Answering Models on Financial Documents

本文是 《Improving Retrieval for RAG based Question Answering Models on Financial Documents》 的笔记。 Limitations of Current RAG Pipelines 传统的 RAG 架构在知识密集型和领域特定的自然语言处理任务中面临许多限制,影响了其有效性。大多数 R...

【论文笔记】BERT for Joint Intent Classification and Slot Filling

本文是 《BERT for Joint Intent Classification and Slot Filling》 的笔记。 在自然语言理解中,意图分类(Intent Classification)和槽填充(Slot Filling)是两个重要的任务。它们通常受限于规模较小的人工标注训练数据,导致泛化能力较差,特别是对于罕见的词汇。最近,一种新的语言表示模型 ...