Masutangu

也許我這一生 始終在追逐那顆九號球

【论文笔记】Unifying Large Language Models And Knowledge Graphs-A Roadmap

本文是《Unifying Large Language Models And Knowledge Graphs: A Roadmap》的笔记。 摘要 大型语言模型(LLMs),如 ChatGPT 和 GPT4,由于其涌现能力(emergent ability)和泛化性,在自然语言处理和人工智能领域引起了新的浪潮。然而,LLMs 是黑盒模型,往往无法捕捉和访问事实...

【论文笔记】GQA-Training Generalized Multi-Query Transformer Models From Multi-Head Checkpoints

本文是 《GQA: Training Generalized Multi-Query Transformer Models From Multi-Head Checkpoints》 的笔记。 Google Research Abstract 多查询注意力(Multi-query attention,MQA):只使用单个键值头,大幅加快解码器推理速度。然而,MQA...

【论文笔记】DistilBERT, a distilled version of BERT-smaller, faster, cheaper and lighter

本文是 《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》 的笔记。 摘要 随着大规模预训练模型在自然语言处理(NLP)中的迁移学习变得越来越普遍,在边缘计算和/或在受限的计算训练或推理预算下运行这些大型模型仍然具有挑战性。在这项工作中,我们提出了一种方法...

【论文笔记】RoBERTa-A Robustly Optimized BERT Pretraining Approach

本文是 《RoBERTa: A Robustly Optimized BERT Pretraining Approach》 的笔记。 Abstract 语言模型预训练带来了显著的性能提升,但不同方法之间的仔细比较具有挑战性。训练计算成本高昂,通常在不同大小的私有数据集上进行,而且我们将展示,超参数选择对最终结果有重大影响。我们进行了 BERT 预训练(Devli...

【论文笔记】Bag of Tricks for Efficient Text Classification

本文是 《Bag of Tricks for Efficient Text Classification》 的笔记。 Abstract 这篇论文探索了一种简单高效的文本分类基线。实验表明,我们的快速文本分类器 fastText 在准确性方面通常与深度学习分类器相当,而在训练和评估速度上快几个数量级。我们可以在不到十分钟的时间内使用标准多核 CPU 训练 fast...

【论文笔记】Scaling Language Models Methods, Analysis & Insights from Training Gopher

本文是 《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》 的笔记。 语言建模:通过利用大量书面人类知识来更好地预测和理解世界,为智能通信系统提供了方向。 研究内容:本文分析了基于 Transformer 的语言模型在各种模型规模上的性能,从数千...

文档去重-MinHash

前言 MinHash 算法属于局部敏感哈希(Locality Sensitive Hashing, LSH)算法。是近似最近邻搜索算法中最流行的一种,主要应用于从海量的数据中挖掘出相似的数据,常应用于文本相似度检测、网页搜索等领域。 以下是论文《On the resemblance and containment of documents》的阅读笔记。 摘要 ...

The Llama 3 Herd of Models 论文笔记一

研究背景 现代人工智能系统:由基础模型驱动。 Llama 3:一组新的基础模型,原生支持多语言、编码、推理和工具使用。 模型概述 最大模型:具有 405B 参数和最多 128K 个 token 上下文窗口的密集 Transformer。 1 Introduction 基础模型介绍 基础模型是设计用于支持多种AI任务的语言、视觉、语音和其他模...

Retrieval-Augmented Generation 介绍【AI 生成】

引言 随着人工智能技术的不断进步,大型语言模型(LLMs)已成为自然语言处理领域的核心技术。然而,LLMs的知识受限于其训练数据,这使得它们在处理最新趋势、事件或特定领域知识时存在局限性。为了解决这一问题,检索增强生成(RAG)技术应运而生,它通过整合实时外部知识,显著提升了LLMs的响应准确性和相关性。 RAG技术的引入,使得LLMs能够动态地从外部知识库中检...

工作十周年

即将迎来工作的十周年,也是入职十周年。几个月前我就在想,在这个颇有意义的时间节点,应该写些什么来纪念一下。于是这几个月来断断续续抽空就写一些片段,而每次提笔的情绪、心境、经历都有所不同,所以草稿里有积极,有消极,但其中不变的,是对未来的思考和期望。过去已是历史,应该沿着什么样的方向,来走当下的路,是最重要的。 从内心上我并没有意识到自己已经工作了这么久,我总希望自己能保持学生的心态,不断学...