Masutangu

也許我這一生 始終在追逐那顆九號球

数学分析笔记三:连续函数

连续与间断 定义 1:设函数 $f(x)$ 在 $x_0$ 点的邻域 $U(x_0, \eta)$ 上有定义。如果对任何满足条件 $x_n \to x_0$ 的序列 $\{x_n\} \subset U(x_0, \eta)$,都有 $\lim f(x_n) = f(x_0)$,那么我们就说函数 $f$ 在 $x_0$ 点连续,或者说 $x_0$ 点是函数 $f$...

数学分析笔记二:极限

有界序列与无穷小序列 定义:设 $\{x_n\}$ 是⼀个实数序列。 如果对任意实数:$\epsilon > 0$,都存在⾃然数 $N$,使得只要 $n > N$ , 就有 $|x_n| < \epsilon$,那么我们就称 $\{x_n\}$ 为⽆穷⼩序列。 引理:设 ${\alpha_n}$ 和 ${\beta_n}$ 是实数序列,并设存在 $N_0 ...

数学分析笔记一:实数

有尽小数在实数系中处处稠密 定理:设 $a$ 和 $b$ 是实数,$a < b$,则存在有尽小数 $c$,满足 $a < c < b$。 证明:如果 $a < 0 < b$,则 $c = 0$ 满足要求。因此只需证明 $0 \leq a < b$ 或 $a < b \leq 0$ 的情况。这里只证明 $0 \leq a ...

【论文笔记】REPLUG - Retrieval-Augmented Black-Box Language Models

本文是《REPLUG: Retrieval-Augmented Black-Box Language Models》 的笔记。 REPLUG 是一个检索增强的语言建模框架,将语言模型(LM)视为黑盒,并使用可调节的检索模型对其进行增强。与先前的检索增强 LM 不同,先前的方法训练语言模型使用特殊的交叉注意力机制来编码检索到的文本,而 REPLUG 只是简单地将检索...

【论文笔记】RAGCache - Efficient Knowledge Caching for Retrieval-Augmented Generation

本文是《RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation》 的笔记。 检索增强生成(Retrieval-Augmented Generation,RAG)通过整合大型语言模型(LLMs)和外部知识数据库,在各种自然语言处理任务中展示了显著的改进。然而,RAG 引入了长序...

【读书笔记】Foundations-of-LLMs 检索增强生成

本文是《Foundations-of-LLMs》 第六章【检索增强生成】的笔记。 RAG 架构分类 本小节将RAG 架构分类两大类:黑盒增强架构和白盒增强架构,如下图所示。其中,黑盒增强架构可根据是否对检索器进行微调分为两类:无微调、检索器微调。类似的,白盒增强架构也可根据是否对检索器进行微调分为两类:仅微调大语言模型、检索器与大语言模型协同微调(下文简称为协同...

【读书笔记】Foundations-of-LLMs 模型编辑

本文是《Foundations-of-LLMs》 第五章【模型编辑】的笔记。 预训练大语言模型中,可能存在偏见、毒性、知识错误等问题。为了纠正这些问题,可以用清洗过的数据重新进行预训练,但成本过高。也可对大语言模型“继续教育”——利用高效微调技术向大语言模型注入新知识,但因为新知识相关样本有限,容易诱发过拟合和灾难性遗忘。为此,仅对模型中的特定知识点进行修正的模型...

【读书笔记】Foundations-of-LLMs 参数高效微调

本文是《Foundations-of-LLMs》 第四章【参数高效微调】的笔记。 主流的下游任务适配方法有两种:上下文学习(In-context learning)和指令微调(Instruction Tuning)。 上下文学习的核心思想是将不同类型的任务都转化为生成任务,通过设计 Prompt 来驱动大语言模型完成下游任务。上下文学习能有效利用大语言模型的能力...

【读书笔记】Foundations-of-LLMs Prompt 工程

本文是《Foundations-of-LLMs》 第三章【Prompt 工程】的笔记。 Prompt 工程简介 经过良好设计的 Prompt 通常由任务说明、上下文、问题、输出格式四个基本元素组成: 任务说明——向模型明确提出具体的任务要求。任务说明应当清晰、直接,并尽可能详细地描述期望模型完成的任务。 上下文——向模型提供的任务相关背景信息,用以增...

【读书笔记】Foundations-of-LLMs 大语言模型架构

本文是《Foundations-of-LLMs》 第二章【大语言模型架构】的笔记。 大数据 + 大模型 → 新智能 Kaplan-McCandlish 扩展法则 2020 年,OpenAI 团队的 Jared Kaplan 和Sam McCandlish 等人首次探究了神经网络的性能与数据规模 $D$ 以及模型规模 $N$ 之间的函数关系。他们在不同规 模的数...