Masutangu

也許我這一生 始終在追逐那顆九號球

数学分析笔记四:导数

导数与微分的概念 定义:设函数 $f(x)$ 在 $x_0$ 点邻近有定义,如果存在有穷极限 $\lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}$,那我们就说函数 $f(x)$ 在 $x_0$ 点可导,并把上述极限值称为函数 $f(x)$ 在 $x_0$ 点的导数,记为 $f’(x_0)$(拉格朗日 Lagrange 记号)。此外还...

【论文笔记】ColBERT

本文是《ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT》 的笔记。 ColBERT 引入了延迟交互(late interaction)架构,该架构使用 BERT 独立编码查询和文档,然后采用低成本但强大的交互步骤来建模它们的细...

【论文笔记】M3-Embedding

本文是《M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation》 的笔记。 新型嵌入模型 M3-Embedding,其创新性体现在: 多语言支持(Multi-Lingu...

数学分析笔记三:连续函数

连续与间断 定义 1:设函数 $f(x)$ 在 $x_0$ 点的邻域 $U(x_0, \eta)$ 上有定义。如果对任何满足条件 $x_n \to x_0$ 的序列 $\{x_n\} \subset U(x_0, \eta)$,都有 $\lim f(x_n) = f(x_0)$,那么我们就说函数 $f$ 在 $x_0$ 点连续,或者说 $x_0$ 点是函数 $f$...

数学分析笔记二:极限

有界序列与无穷小序列 定义:设 $\{x_n\}$ 是⼀个实数序列。 如果对任意实数:$\epsilon > 0$,都存在⾃然数 $N$,使得只要 $n > N$ , 就有 $|x_n| < \epsilon$,那么我们就称 $\{x_n\}$ 为⽆穷⼩序列。 引理:设 ${\alpha_n}$ 和 ${\beta_n}$ 是实数序列,并设存在 $N_0 ...

数学分析笔记一:实数

有尽小数在实数系中处处稠密 定理:设 $a$ 和 $b$ 是实数,$a < b$,则存在有尽小数 $c$,满足 $a < c < b$。 证明:如果 $a < 0 < b$,则 $c = 0$ 满足要求。因此只需证明 $0 \leq a < b$ 或 $a < b \leq 0$ 的情况。这里只证明 $0 \leq a ...

【论文笔记】REPLUG - Retrieval-Augmented Black-Box Language Models

本文是《REPLUG: Retrieval-Augmented Black-Box Language Models》 的笔记。 REPLUG 是一个检索增强的语言建模框架,将语言模型(LM)视为黑盒,并使用可调节的检索模型对其进行增强。与先前的检索增强 LM 不同,先前的方法训练语言模型使用特殊的交叉注意力机制来编码检索到的文本,而 REPLUG 只是简单地将检索...

【论文笔记】RAGCache - Efficient Knowledge Caching for Retrieval-Augmented Generation

本文是《RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation》 的笔记。 检索增强生成(Retrieval-Augmented Generation,RAG)通过整合大型语言模型(LLMs)和外部知识数据库,在各种自然语言处理任务中展示了显著的改进。然而,RAG 引入了长序...

【读书笔记】Foundations-of-LLMs 检索增强生成

本文是《Foundations-of-LLMs》 第六章【检索增强生成】的笔记。 RAG 架构分类 本小节将RAG 架构分类两大类:黑盒增强架构和白盒增强架构,如下图所示。其中,黑盒增强架构可根据是否对检索器进行微调分为两类:无微调、检索器微调。类似的,白盒增强架构也可根据是否对检索器进行微调分为两类:仅微调大语言模型、检索器与大语言模型协同微调(下文简称为协同...

【读书笔记】Foundations-of-LLMs 模型编辑

本文是《Foundations-of-LLMs》 第五章【模型编辑】的笔记。 预训练大语言模型中,可能存在偏见、毒性、知识错误等问题。为了纠正这些问题,可以用清洗过的数据重新进行预训练,但成本过高。也可对大语言模型“继续教育”——利用高效微调技术向大语言模型注入新知识,但因为新知识相关样本有限,容易诱发过拟合和灾难性遗忘。为此,仅对模型中的特定知识点进行修正的模型...