Masutangu

也許我這一生　始終在追逐那顆九號球

【课程笔记】CS336 - Language Modeling from Scratch（一）

本文为课程 Stanford CS336 - Language Modeling from Scratch 的笔记。 Tokenizer Character-based tokenization Byte-based tokenization Word-based tokenization Byte Pair Encoding (BPE) ...

Posted by Masutangu on September 20, 2025

数学分析笔记四：导数

导数与微分的概念定义：设函数 $f(x)$ 在 $x_0$ 点邻近有定义，如果存在有穷极限 $\lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}$，那我们就说函数 $f(x)$ 在 $x_0$ 点可导，并把上述极限值称为函数 $f(x)$ 在 $x_0$ 点的导数，记为 $f’(x_0)$（拉格朗日 Lagrange 记号）。此外还...

Posted by Masutangu on August 7, 2025

【论文笔记】ColBERT

本文是《ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT》的笔记。 ColBERT 引入了延迟交互（late interaction）架构，该架构使用 BERT 独立编码查询和文档，然后采用低成本但强大的交互步骤来建模它们的细...

Posted by Masutangu on August 3, 2025

【论文笔记】M3-Embedding

本文是《M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation》的笔记。新型嵌入模型 M3-Embedding，其创新性体现在：多语言支持（Multi-Lingu...

Posted by Masutangu on August 3, 2025

数学分析笔记三：连续函数

连续与间断定义 1：设函数 $f(x)$ 在 $x_0$ 点的邻域 $U(x_0, \eta)$ 上有定义。如果对任何满足条件 $x_n \to x_0$ 的序列 $\{x_n\} \subset U(x_0, \eta)$，都有 $\lim f(x_n) = f(x_0)$，那么我们就说函数 $f$ 在 $x_0$ 点连续，或者说 $x_0$ 点是函数 $f$...

Posted by Masutangu on July 25, 2025

数学分析笔记二：极限

有界序列与无穷小序列定义：设 $\{x_n\}$ 是⼀个实数序列。如果对任意实数：$\epsilon ＞ 0$，都存在⾃然数 $N$，使得只要 $n ＞ N$ ，就有 $|x_n| < \epsilon$，那么我们就称 $\{x_n\}$ 为⽆穷⼩序列。引理：设 ${\alpha_n}$ 和 ${\beta_n}$ 是实数序列，并设存在 $N_0 ...

Posted by Masutangu on July 14, 2025

数学分析笔记一：实数

有尽小数在实数系中处处稠密定理：设 $a$ 和 $b$ 是实数，$a < b$，则存在有尽小数 $c$，满足 $a < c < b$。证明：如果 $a < 0 < b$，则 $c = 0$ 满足要求。因此只需证明 $0 \leq a < b$ 或 $a < b \leq 0$ 的情况。这里只证明 $0 \leq a ...

Posted by Masutangu on July 10, 2025

【论文笔记】REPLUG - Retrieval-Augmented Black-Box Language Models

本文是《REPLUG: Retrieval-Augmented Black-Box Language Models》的笔记。 REPLUG 是一个检索增强的语言建模框架，将语言模型（LM）视为黑盒，并使用可调节的检索模型对其进行增强。与先前的检索增强 LM 不同，先前的方法训练语言模型使用特殊的交叉注意力机制来编码检索到的文本，而 REPLUG 只是简单地将检索...

Posted by Masutangu on May 6, 2025

【论文笔记】RAGCache - Efficient Knowledge Caching for Retrieval-Augmented Generation

本文是《RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation》的笔记。检索增强生成（Retrieval-Augmented Generation，RAG）通过整合大型语言模型（LLMs）和外部知识数据库，在各种自然语言处理任务中展示了显著的改进。然而，RAG 引入了长序...

Posted by Masutangu on May 6, 2025

【读书笔记】Foundations-of-LLMs 检索增强生成

本文是《Foundations-of-LLMs》第六章【检索增强生成】的笔记。 RAG 架构分类本小节将RAG 架构分类两大类：黑盒增强架构和白盒增强架构，如下图所示。其中，黑盒增强架构可根据是否对检索器进行微调分为两类：无微调、检索器微调。类似的，白盒增强架构也可根据是否对检索器进行微调分为两类：仅微调大语言模型、检索器与大语言模型协同微调（下文简称为协同...

Posted by Masutangu on April 25, 2025

FEATURED TAGS

个人项目读书笔记机器学习分布式源码阅读随笔汇编 Golang 工作 Python 数学 Linux 编程语言协程 C C++ 优化&重构强化学习数据库 Rust

ABOUT ME

"當我穿過沙漠遇見你
不可思議十三億分之一
遠處夕陽落入地平線裡
風吹過過去未來現在
冥冥之中誰在編排你"

C-BLOCK -《很高興認識你》

FRIENDS

onlyice