Masutangu

也許我這一生 始終在追逐那顆九號球

【读书笔记】Foundations-of-LLMs 检索增强生成

本文是《Foundations-of-LLMs》 第六章【检索增强生成】的笔记。 RAG 架构分类 本小节将RAG 架构分类两大类:黑盒增强架构和白盒增强架构,如下图所示。其中,黑盒增强架构可根据是否对检索器进行微调分为两类:无微调、检索器微调。类似的,白盒增强架构也可根据是否对检索器进行微调分为两类:仅微调大语言模型、检索器与大语言模型协同微调(下文简称为协同...

【读书笔记】Foundations-of-LLMs 模型编辑

本文是《Foundations-of-LLMs》 第五章【模型编辑】的笔记。 预训练大语言模型中,可能存在偏见、毒性、知识错误等问题。为了纠正这些问题,可以用清洗过的数据重新进行预训练,但成本过高。也可对大语言模型“继续教育”——利用高效微调技术向大语言模型注入新知识,但因为新知识相关样本有限,容易诱发过拟合和灾难性遗忘。为此,仅对模型中的特定知识点进行修正的模型...

【读书笔记】Foundations-of-LLMs 参数高效微调

本文是《Foundations-of-LLMs》 第四章【参数高效微调】的笔记。 主流的下游任务适配方法有两种:上下文学习(In-context learning)和指令微调(Instruction Tuning)。 上下文学习的核心思想是将不同类型的任务都转化为生成任务,通过设计 Prompt 来驱动大语言模型完成下游任务。上下文学习能有效利用大语言模型的能力...

【读书笔记】Foundations-of-LLMs Prompt 工程

本文是《Foundations-of-LLMs》 第三章【Prompt 工程】的笔记。 Prompt 工程简介 经过良好设计的 Prompt 通常由任务说明、上下文、问题、输出格式四个基本元素组成: 任务说明——向模型明确提出具体的任务要求。任务说明应当清晰、直接,并尽可能详细地描述期望模型完成的任务。 上下文——向模型提供的任务相关背景信息,用以增...

【读书笔记】Foundations-of-LLMs 大语言模型架构

本文是《Foundations-of-LLMs》 第二章【大语言模型架构】的笔记。 大数据 + 大模型 → 新智能 Kaplan-McCandlish 扩展法则 2020 年,OpenAI 团队的 Jared Kaplan 和Sam McCandlish 等人首次探究了神经网络的性能与数据规模 $D$ 以及模型规模 $N$ 之间的函数关系。他们在不同规 模的数...

【论文笔记】Transformer Feed-Forward Layers Are Key-Value Memories

本文是 《Transformer Feed-Forward Layers Are Key-Value Memories》 的笔记。 前馈层占据了 Transformer 模型参数的三分之二,然而它们在网络中的作用仍未得到充分探索。我们展示了基于 Transformer 的语言模型中的前馈层作为键-值记忆的功能,其中每个键与训练示例中的文本模式相关联,每个值引导输出...

【读书笔记】Foundations-of-LLMs 语言模型基础

本文是《Foundations-of-LLMs》 第一章【语言模型基础】的笔记。 基于统计方法的语言模型 n-grams 语言模型是在 n 阶马尔可夫假设下,对语料库中出现的长度为 n 的词序列出现概率的极大似然估计。 n-grams 语言模型通过依次统计文本中的 n-gram 及其对应的 (n-1)-gram 在语料库中出现的相对频率来计算文本 $w_{1:...

【论文笔记】Deep Residual Learning for Image Recognition

本文是 《Deep Residual Learning for Image Recognition》 的笔记。 深度神经网络更难训练,我们提出了一种残差(residual)学习框架,以简化训练比以前更深的网络。我们明确地将层重新定义为学习相对于层输入的残差函数,而不是学习无参考函数。我们提供了全面的实证证据,表明这些残差网络更容易优化,并且可以从显著增加的深度中获...

【学习笔记】Evaluation Metrics for Language Modeling

本文是 《Evaluation Metrics for Language Modeling》 的笔记。 通常情况下,语言模型的性能可以通过困惑度(perplexity)、交叉熵(cross entropy)和每字符比特数(bits-per-character,BPC)来衡量。随着语言模型越来越多地被用作其他自然语言处理任务的预训练模型,它们通常也会根据在下游任务上...

【论文笔记】Prediction and Entropy of Printed English

本文是 《Prediction and Entropy of Printed English》 的部分笔记。 Introduction 熵是一种统计参数,从某种意义上衡量了在该语言的文本中,每个字母平均产生多少信息。如果将语言以最有效的方式转换为二进制数字(0 或 1),那么熵就是原始语言中每个字母平均所需的二进制位数。另一方面,冗余度衡量的是由于语言的统计结构...