【论文笔记】DistilBERT, a distilled version of BERT-smaller, faster, cheaper and lighter
本文是 《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》 的笔记。
摘要
随着大规模预训练模型在自然语言处理(NLP)中的迁移学习变得越来越普遍,在边缘计算和/或在受限的计算训练或推理预算下运行这些大型模型仍然具有挑战性。在这项工作中,我们提出了一种方法...