2024 年值得关注的大语言模型研究论文
—— 2024 年 1 月至 12 月的 12 篇有影响力的人工智能论文
2025 年 1 月 23 日
作者:Sebastian Raschka
希望您的 2025 年开局顺利!为了开启新的一年,我终于完成了这篇《2024 年人工智能研究亮点》文章的草稿。它涵盖了各种主题,从混合专家模型到针对精度的新 LLM 规模缩放法则。
要回顾 2024 年的所有主要研究亮点,可能需要写一整本书。即使对于这样一个快速发展的领域来说,这也是一个成果极其丰硕的年份。为了保持文章的相对简明,我决定在本文中只关注 LLM 研究。但即便如此,在一个如此多事的年份,如何选择论文的子集呢?我想到的最简单的方法是每月重点介绍一篇论文:从 2024 年 1 月到 12 月。
因此,在本文中,我将分享 12 个研究亮点——那些我个人觉得引人入胜、具有影响力,或者最好两者兼备的论文。
不可否认,遴选标准是主观的,基于今年让我印象深刻的内容。我还力求多样性,所以不仅仅是关于 LLM 模型的发布。
如果您正在寻找更广泛的人工智能研究论文列表,请随时查看我之前的文章(LLM 研究论文:2024 年列表)。
新年快乐,阅读愉快!
目录
- 1. 一月:Mixtral 的混合专家方法
- 2. 二月:权重分解的 LoRA
- 3. 三月:持续预训练 LLM 的技巧
- 4. 四月:用于 LLM 对齐的 DPO 或 PPO,还是两者都要?
- 5. 五月:LoRA 学得更少,忘得也更少
- 6. 六月:15 万亿词元的 FineWeb 数据集
- 7. 七月:Llama 3 模型系列
- 8. 八月:通过扩展推理时间计算来改进 LLM
- 9. 九月:比较多模态 LLM 范式
- 10. 十月:复现 OpenAI O1 的推理能力
- 11. 十一月:LLM 精度缩放法则
- 12. 十二月:Phi-4 和从合成数据中学习
- 结论和展望
1. 一月:Mixtral 的混合专家方法
在 2024 年 1 月初,Mistral AI 团队分享了 Mixtral of Experts 论文(2024 年 1 月 8 日),其中描述了 Mixtral 8x7B,一个稀疏混合专家 (SMoE) 模型。
该论文和模型当时都非常有影响力,因为 Mixtral 8x7B 是(其中一个)首批具有令人印象深刻性能的开源权重 MoE LLM:它在各种基准测试中都优于 Llama 2 70B 和 GPT-3.5。
1.1 理解 MoE 模型
MoE,即混合专家模型,是一种集成模型,它在类似 GPT 的解码器架构中结合了多个较小的“专家”子网络。据说每个子网络负责处理不同类型的任务,或者更具体地说,是处理不同的词元。这里的想法是,通过使用多个较小的子网络而不是一个大型网络,MoE 旨在更有效地分配计算资源。
特别是在 Mixtral 8x7B 中,是将 Transformer 架构中的每个前馈模块替换为 8 个专家层,如下图所示。
来自《注意力就是你所需要的一切》的带注释的 Transformer 架构,[1706.03762] Attention Is All You Need
在“稀疏混合专家”的上下文中,“稀疏”指的是在任何给定时间,只有专家层的一个子集(在 Mixtral 8x7B 中通常是 8 个中的 1 个或 2 个)被主动用于处理一个词元。
如上图所示,子网络替换了 LLM 中的前馈模块。前馈模块本质上是一个多层感知器。在类似 PyTorch 的伪代码中,它看起来基本上是这样的:
class FeedForward(torch.nn.Module):
def __init__(self, embed_dim, coef):
super().__init__()
self.layers = nn.Sequential(
torch.nn.Linear(embed_dim, coef*embed_dim),
torch.nn.ReLU(),
torch.nn.Linear(coef*n_embed, embed_dim),
torch.nn.Dropout(dropout)
)
def forward(self, x):
return self.layers(x)
此外,还有一个路由器模块(也称为门控网络),它将每个词元嵌入重定向到 8 个专家前馈模块。然后将这 8 个专家前馈层的输出相加,如下图所示。
由于本文还有 11 篇论文要介绍,我想简要介绍一下 Mixtral 模型。但是,您可以在我之前的文章“模型合并、专家混合和迈向更小的 LLM”中找到更多详细信息 (Model Merging, Mixtures of Experts, and Towards Smaller LLMs)
1.2 MoE 模型如今的相关性
在今年年初,我本以为开源权重的 MoE 模型会比现在更受欢迎和更广泛使用。虽然它们并非无关紧要,但许多最先进的模型仍然依赖于密集(传统)LLM 而不是 MoE,例如 Llama 3、Qwen 2.5、Gemma 2 等。当然,我们无法得知 GPT-4、Gemini 和 Claude 等专有架构是基于什么;它们很可能也在内部使用 MoE。
无论如何,MoE 架构仍然具有相关性,特别是它们提供了一种有效扩展大型语言模型的方法,方法是为每个输入仅激活模型参数的一个子集,从而在不牺牲模型容量的情况下降低计算成本。
2. 二月:权重分解的 LoRA
如果您正在微调开源权重的 LLM,您很有可能在某个时候使用了低秩自适应 (LoRA),这是一种用于参数高效 LLM 微调的方法。
如果您是 LoRA 的新手,我之前写了一篇关于 使用 LoRA(低秩自适应)微调 LLM 的实用技巧 的文章,您可能会觉得有用,并且在我的《从头构建大型语言模型》一书的附录 D 中有一个从头开始的代码实现。
由于 LoRA 是一种如此流行和广泛使用的方法,并且由于我非常喜欢实现和使用更新的变体,因此我选择的二月份论文是 Liu 等人撰写的 DoRA:权重分解的低秩自适应(2024 年 2 月)。
2.2 LoRA 回顾
在介绍 DoRA 之前,这里快速回顾一下 LoRA:
完全微调通过计算一个大的权重更新矩阵 ΔW 来更新 LLM 中的每个大权重矩阵 W。LoRA 将 ΔW 近似为两个较小的矩阵 A 和 B 的乘积。因此,我们使用 W + A.B 代替 W + ΔW。这大大减少了计算和内存开销。
下图并排说明了完全微调和 LoRA 微调的这些公式。
常规微调(左)和 LoRA 微调(右)的示意图。
2.2 从 LoRA 到 DoRA
DoRA(权重分解的低秩自适应) 扩展了 LoRA,它首先将预训练的权重矩阵分解为两部分:幅度向量 m 和方向矩阵 V。这种分解源于任何向量都可以由其长度(幅度)和方向(朝向)表示的想法,这里我们将其应用于权重矩阵的每个列向量。一旦我们有了 m 和 V,DoRA 就仅对方向矩阵 V 应用 LoRA 风格的低秩更新,同时允许单独训练幅度向量 m。
来自 DoRA 论文 ([2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation) 的带注释的插图
这种两步法使 DoRA 比标准 LoRA 具有更大的灵活性。DoRA 可以进行细微的方向调整而不必增加幅度,而不是像 LoRA 那样统一缩放幅度和方向。结果是提高了性能和鲁棒性,因为 DoRA 即使使用更少的参数也可以胜过 LoRA,并且对秩的选择不太敏感。
同样,由于还有 10 篇论文要介绍,我将简要介绍这一部分,但如果您有兴趣了解更多详细信息,我在今年早些时候专门写了一篇文章来介绍这种方法:“改进 LoRA:从头实现权重分解的低秩自适应 (DoRA)” (Improving LoRA: Implementing Weight-Decomposed Low-Rank Adaptation (DoRA) from Scratch)
2.3 LoRA 和类 LoRA 方法的未来
DoRA 是对原始 LoRA 方法的一个小的、符合逻辑的改进。虽然它尚未被广泛采用,但它增加了最小的复杂性,并且在下次您微调 LLM 时值得考虑。总的来说,我预计 LoRA 和类似的方法将继续流行。例如,苹果最近在其 Apple Intelligence 基础语言模型论文中提到,他们将 LoRA 用于 LLM 的设备端任务专用化。
3. 三月:持续预训练 LLM 的技巧
据我所知,指令微调是 LLM 从业者最流行的微调形式。这里的目标是让公开可用的 LLM 更好地遵循指令,或者在子集或新指令上专门化这些 LLM。
然而,当涉及到吸收新知识时,持续预训练(有时也称为连续预训练)才是正途。
在本节中,我想简要总结一下 Ibrahim 等人撰写的这篇令人耳目一新的 简单且可扩展的持续预训练大型语言模型的策略(2024 年 3 月)论文。
3.1 简单技巧奏效
这篇 24 页的《持续预训练大型语言模型》论文报告了大量的实验,并附带了无数的图表,这对于今天的标准来说非常全面。
成功应用持续预训练的主要技巧是什么?
- 简单地重新预热和重新衰减学习率
- 将一小部分(例如 5%)原始预训练数据 (D1) 添加到新数据集 (D2) 中,以防止灾难性遗忘。请注意,较小的比例(如 0.5% 和 1%)也有效。
关于第 1 点,重新预热和重新衰减,更具体地说,这意味着我们采用与 LLM 初始预训练阶段使用的完全相同的学习率计划。
持续预训练的计划。基于《从头构建大型语言模型》一书的图表,LLMs-from-scratch/appendix-D/01_main-chapter-code/appendix-D.ipynb at main · rasbt/LLMs-from-scratch · GitHub
据我所知,重新预热和重新衰减,以及将原始预训练数据添加到新数据中,或多或少是常识。但是,我真的很欣赏研究人员花时间在这份非常详细的 24 页报告中正式测试了这种方法。
如果您有兴趣了解更多详细信息,我在之前的“LLM 预训练和评估奖励模型的技巧”一文中更全面地讨论了这篇论文 (Tips for LLM Pretraining and Evaluating Reward Models)。
3.2 这些简单技巧会继续奏效吗?
我没有理由相信这些方法不会继续适用于未来的 LLM。但是,需要注意的是,预训练流程已经变得更加复杂,包括多个阶段,包括短上下文和长上下文预训练。因此,为了获得最佳结果,在某些情况下可能需要调整本文中建议的方法。
4. 四月:用于 LLM 对齐的 DPO 或 PPO,还是两者都要?
四月是一个艰难的选择。例如,Kolmogorov-Arnold 网络在那个月引起了很大的轰动。但据我所知,兴奋很快就消失了。这可能是因为它们的理论保证难以在实践中实现,它们缺乏有竞争力的结果或基准,并且其他架构的可扩展性要强得多。
因此,我选择的四月份论文是一篇更实用的论文:Xu 等人撰写的 DPO 是否优于 PPO 用于 LLM 对齐?一项全面的研究(2024 年 4 月)。
4.1 RLHF-PPO 和 DPO:它们是什么?
在总结论文本身之前,这里概述一下近端策略优化 (PPO) 和直接偏好优化 (DPO),它们都是通过人类反馈强化学习 (RLHF) 对齐 LLM 的流行方法。RLHF 是将 LLM 与人类偏好对齐的首选方法,可提高 LLM 回答的质量和安全性。
典型的(简化的)LLM 训练生命周期。
传统上,RLHF-PPO 一直是 InstructGPT 和 ChatGPT 等模型和平台训练 LLM 的关键步骤。然而,由于 DPO 的简单性和有效性,它在去年开始受到关注。与 RLHF-PPO 相比,DPO 不需要单独的奖励模型。相反,它使用类似分类的目标直接更新 LLM。许多 LLM 现在都使用 DPO,尽管缺乏与 PPO 的全面比较。
以下是我今年早些时候开发和分享的关于 RLHF 和 DPO 的两份资料:
- LLM 训练:RLHF 及其替代方案
- 用于 LLM 对齐的直接偏好优化 (DPO)(从头开始)
4.2 PPO 通常优于 DPO
《DPO 是否优于 PPO 用于 LLM 对齐?一项全面的研究》是一篇写得很好的论文,其中包含大量的实验和结果。关键结论是 PPO 往往优于 DPO,并且 DPO 在处理分布外数据时较差。
这里,分布外数据是指语言模型之前在指令数据上进行过训练(通过监督微调),这些指令数据不同于用于 DPO 的偏好数据。例如,模型可能会在通用 Alpaca 数据集上进行训练,然后在不同的偏好标记数据集上进行 DPO 微调。(然而,改进 DPO 在此类分布外数据上的一种方法是首先使用偏好数据集进行监督指令微调,然后执行 DPO 微调。)
主要发现总结在下图中。
来自《DPO 是否优于 PPO 用于 LLM 对齐?一项全面的研究》([2404.10719] Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study) 论文的带注释的表格。
4.3 PPO 和 DPO 如今是如何使用的?
在最终 LLM 的原始建模性能方面,PPO 可能略有优势。然而,DPO 更容易实现,并且在应用时计算效率更高(毕竟您不必训练和使用单独的奖励模型)。因此,据我所知,DPO 在实践中也比 RLHF-PPO 使用得广泛得多。
一个有趣的例子是 Meta AI 的 Llama 模型。虽然 Llama 2 是用 RLHF-PPO 训练的,但较新的 Llama 3 模型使用了 DPO。
有趣的是,最近的模型现在甚至同时使用 PPO 和 DPO。最近的例子包括 Apple 的基础模型和 Allen AI 的 Tulu 3。
5. 五月:LoRA 学得更少,忘得也更少
我发现今年还有一篇 LoRA 论文特别有趣(我保证,这是这 12 篇论文精选中的最后一篇 LoRA 论文!)。我不会称之为开创性的,但我真的很喜欢它,因为它形式化了围绕使用(和不使用)LoRA 微调 LLM 的一些常识,这篇论文是 Biderman 等人撰写的 LoRA:LoRA 学得更少,忘得也更少(2024 年 5 月)。
《LoRA 学得更少,忘得也更少》是一项实证研究,比较了大型语言模型 (LLM) 上的低秩自适应 (LoRA) 与完全微调,重点关注两个领域(编程和数学)和两个任务(指令微调和持续预训练)。如果您想在继续之前回顾一下 LoRA,请查看上面的二月份部分。
5.1 LoRA 学得更少
研究表明,LoRA 比完全微调学到的东西明显更少,尤其是在需要获取新知识的编码等任务中。当仅执行指令微调时,差距会更小。这表明,在新数据上进行预训练(学习新知识)比将预训练模型转换为指令跟随者更能从完全微调中受益。
完全微调与 LoRA。性能是在 HumanEval 上衡量的,HumanEval 是一个由 164 个编码挑战组成的数据集。来自《LoRA 学得更少,忘得也更少》的带注释的图表,https://arxiv.org/abs/2405.09673。
不过,还有一些更细微的差别。例如,对于数学任务,LoRA 和完全微调之间的差异会缩小。这可能是因为数学问题对 LLM 来说更熟悉,并且它们可能在预训练期间遇到过类似的问题。相比之下,编码涉及一个更独特的领域,需要更多的新知识。因此,新任务离模型的预训练数据越远,就学习能力而言,完全微调就越有益。
5.2 LoRA 忘得更少
在考察之前获得的知识有多少丢失时,LoRA 始终忘得更少。当适应远离源领域(例如编码)的数据时,这一点尤其明显。对于编码任务,完全微调会导致严重的遗忘,而 LoRA 则保留了更多的原始能力。在数学方面,模型的原始知识已经更接近新任务,因此差异不太明显。
在编程数据上训练后,在原始源任务上进行完全微调与 LoRA。来自《LoRA 学得更少,忘得也更少》的带注释的图表,https://arxiv.org/abs/2405.09673。
5.3 LoRA 的权衡
总的来说,存在一种权衡:完全微调更适合吸收来自更远领域的新知识,但会导致更多地遗忘以前学习过的任务。LoRA 通过更改更少的参数,学习的新信息更少,但保留了更多的原始能力。
5.4 未来微调 LLM 的方法
该研究主要将 LoRA 与完全微调进行了比较。在实践中,LoRA 之所以受欢迎,是因为它比完全微调的资源效率高得多。在许多情况下,由于硬件限制,完全微调根本不可行。此外,如果您只需要处理专门的应用程序,仅 LoRA 可能就足够了。由于 LoRA 适配器可以与基础 LLM 分开存储,因此可以轻松保留原始功能,同时添加新功能。此外,可以通过使用完全微调进行知识更新,然后使用 LoRA 进行后续专门化,从而结合这两种方法。
简而言之,我认为这两种方法在未来几年仍将非常重要。更重要的是针对手头的任务使用正确的方法。
6. 六月:15 万亿词元的 FineWeb 数据集
Penedo 等人撰写的 FineWeb 数据集:大规模提炼网络以获得最佳文本数据(2024 年 6 月)论文描述了如何为 LLM 创建一个包含 15 万亿词元的数据集并将其公开,包括下载数据集的链接和重现数据集准备步骤的代码仓库 (datatrove/examples/fineweb.py)。
6.1 与其他数据集的比较
由于还有其他几个用于 LLM 预训练的大型数据集可用,那么这个数据集有什么特别之处呢?其他数据集相对较小:RefinedWeb(5000 亿词元)、C4(1720 亿词元)、基于 Common Crawl 的 Dolma 1.6(3 万亿词元)和 1.7(1.2 万亿词元)、The Pile(3400 亿词元)、SlimPajama(6270 亿词元)、RedPajama 的去重变体(
RedPajama 的去重变体(20 万亿词元)、Matrix 的英文 CommonCrawl 部分(1.3 万亿词元)、英文 CC-100(700 亿词元)、Colossal-OSCAR(8500 亿词元)。
例如,根据龙猫缩放法则,约 3600 亿个词元仅适用于小型 LLM(例如,1.7B)。另一方面,根据龙猫缩放法则,FineWeb 数据集中的 15 万亿个词元对于参数高达 5000 亿的模型应该是最佳的。(请注意,RedPajama 包含 20 万亿个词元,但研究人员发现,由于应用了不同的过滤规则,在 RedPajama 上训练的模型质量低于 FineWeb。)
多年来用于预训练 LLM 的数据集大小的说明。请注意,这只是一个一般参考,与 FineWeb 论文或龙猫缩放法则论文没有直接关系。
简而言之,FineWeb 数据集(仅限英语)使研究人员和从业人员在理论上可以训练大规模 LLM。(旁注:具有 8B、70B 和 405B 大小的 Llama 3 模型也接受了 15 万亿个词元的训练,但 Meta AI 的训练数据集并未公开。)
6.2 原则性数据集开发
此外,该论文包含原则性的消融研究,以及关于如何开发过滤规则并将其应用于 FineWeb 数据集(从 CommonCrawl 网络语料库开始)的见解。简而言之,对于他们尝试的每个过滤规则,他们从原始数据和过滤后的数据中随机抽取 3600 亿个词元的样本,然后训练一个小型 17.1 亿参数的类 Llama 模型,以根据模型在 HellaSwag、ARC、MMLU 等标准基准测试中的表现来判断该过滤规则是否有益。
来自 FineWeb 论文 ([2406.17557] The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale) 的带注释的图表,说明了应用各种过滤规则后的性能提升。
6.3 FineWeb 如今的相关性
总的来说,虽然预训练数十亿参数的 LLM 可能仍然超出了大多数研究实验室和公司的能力范围,但该数据集是朝着 LLM 研究和开发民主化迈出的重要一步。总而言之,这篇论文代表了一项值得称赞的努力,并为推进 LLM 预训练引入了宝贵的公共资源。
7. 七月:Llama 3 模型系列
读者可能已经很熟悉 Meta AI 的 Llama 3 模型和论文,但由于这些模型非常重要且被广泛使用,我想将七月部分专门介绍给 Grattafiori 等人撰写的 Llama 3 模型系列(2024 年 7 月)论文。
与 Llama 2 前身相比,Llama 3 模型系列值得注意的是预训练和后训练流程的复杂性有所提高。请注意,这不仅适用于 Llama 3,还适用于其他 LLM,如 Gemma 2、Qwen 2、Apple 的基础模型等,正如我在几个月前在我的文章《新的 LLM 预训练和后训练范式》中所述。
7.1 Llama 3 架构摘要
Llama 3 最初发布了 80 亿和 700 亿参数大小,但该团队不断迭代该模型,发布了 Llama 的 3.1、3.2 和 3.3 版本。这些大小总结如下:
Llama 3(2024 年 4 月)
- 8B 参数
- 70B 参数
Llama 3.1(2024 年 7 月,在论文中讨论)
- 8B 参数
- 70B 参数
- 405B 参数
Llama 3.2(2024 年 9 月)
- 1B 参数
- 3B 参数
- 11B 参数(支持视觉)
- 90B 参数(支持视觉)
Llama 3.3(2024 年 12 月)
- 70B 参数
总的来说,Llama 3 架构与 Llama 2 非常相似。主要区别在于其更大的词汇表和为较小模型变体引入的分组查询注意力。下图总结了这些差异。
来自我的《从头构建大型语言模型》一书的附赠材料中的 Llama 2 与 3 的比较
如果您对架构细节感到好奇,一个很好的学习方法是从头实现模型并加载预训练权重作为完整性检查。我有一个 GitHub 仓库,其中包含一个从头开始的实现,它将 GPT-2 转换为 Llama 2、Llama 3、Llama 3.1 和 Llama 3.2。
来自我的《从头构建大型语言模型》一书的附赠材料中的 GPT-2 到 Llama 2、Llama 3、Llama 3.1 和 Llama 3.2 的转换
7.2 Llama 3 训练
与 Llama 2 相比,另一个值得注意的更新是 Llama 3 现在已经接受了 15 万亿个词元的训练。
各种模型的训练集大小比较。
预训练过程现在是多阶段的。该论文主要关注 Llama 3.1,为了简洁起见,我在下图中总结了其预训练技术。
Llama 3.1 预训练中使用的技术总结。
在后训练中,与 Llama 2 相比,一个显著的变化是从 RLHF-PPO 切换到 DPO。这些方法也总结在下图中。
Llama 3.1 后训练中使用的技术总结。
为了简洁起见,由于本文还有 5 篇论文要介绍,我将把其他细节和其他模型的比较留到我之前的一篇文章中。《新的 LLM 预训练和后训练范式》。
7.3 多模态 Llama
请注意,Llama 3.2 模型也发布了多模态支持。但是,我没有观察到这些模型在实践中被广泛使用,它们也没有被广泛讨论。我们将在本文后面的九月部分重新讨论多模态技术。
7.4 Llama 3 的影响和使用
虽然 Llama 3 已经发布了半年多,但 Llama 模型仍然是最受认可和使用的开源权重 LLM 之一(基于我的个人感知,因为我没有具体的来源可以引用)。这些模型相对容易理解和使用。它们受欢迎的原因可能是 Llama 品牌知名度,加上在各种通用任务中的强大性能,以及易于微调它们。
Meta AI 还通过迭代 Llama 3 模型保持了势头,发布了 3.1、3.2 和现在的 3.3 版本,这些版本涵盖了各种大小,以满足不同的用例,从设备端场景 (1B) 到高性能应用程序 (400B)。
尽管该领域现在包括许多有竞争力的开源和开源权重 LLM,如 Olmo 2、Qwen 2.5、Gemma 2 和 Phi-4 等等,但我相信 Llama 仍将是大多数用户的首选模型,就像 ChatGPT 尽管有来自 Anthropic Claude、Google Gemini、DeepSeek 等的竞争,但仍保持其受欢迎程度一样。
就我个人而言,我对 Llama 4 感到兴奋,我希望它能在 2025 年的某个时候发布。
好的,以下是您 requested 的翻译内容,同样严格遵循您的详细指导方针:
8. 八月:通过扩展推理时间计算来改进 LLM
我本月的选择是《优化扩展 LLM 测试时计算比扩展模型参数更有效》(2024 年 8 月),因为它是一篇写得非常好且详细的论文,为在推理时间(即部署)期间改进 LLM 响应提供了一些有趣的见解。
8.1 通过使用更多测试时计算来改进输出
这篇论文的主要前提是研究是否以及如何利用增加的测试时计算来改进 LLM 输出。粗略地类比一下,假设人类在处理困难任务时,如果给他们更多的时间思考,就可以产生更好的回答。类似地,如果 LLM 有更多的时间/资源来生成回答,它们也许能够产生更好的输出。用更专业的术语来说,研究人员试图找出,如果在推理期间使用额外的计算,模型可以比它们训练时表现得好多少。
此外,研究人员还研究了在给定固定计算预算的情况下,将更多计算花费在测试时间是否比将该计算用于进一步预训练模型更能改进结果。稍后会详细介绍。
8.2 优化测试时计算技术
该论文非常详细地描述了增加和改进测试时计算的技术,如果您真的想在实践中部署 LLM(例如前面提到的 Llama 模型),我强烈建议您完整阅读这篇论文。
简而言之,扩展测试时计算的 2 种主要方法是:
- 生成多个解决方案,并使用基于过程的验证器奖励模型(必须单独训练)来选择最佳响应。
- 自适应地更新模型的响应分布,这实质上意味着在推理生成期间修改响应(这也需要一个单独的模型)。
为类别 1 提供一个简单的例子:一种改进测试时计算的简单方法是使用 N 中取优采样 (best-of-N sampling)。这意味着我们让 LLM 并行生成多个答案,然后根据验证器奖励模型挑选出最佳答案。“N 中取优”也只是一个例子。多种搜索算法都属于这一类:集束搜索 (beam-search)、前瞻搜索 (lookahead-search) 和 N 中取优,如下图所示。
不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。来自《LLM 测试时计算》论文的带注释的图表,[2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
另一种属于类别 2 的方法是顺序修改模型的响应,如下图所示。
顺序修改方法。来自《LLM 测试时计算》论文的带注释的图表,[2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
哪种方法效果更好?不幸的是,没有一刀切的答案。这取决于基础 LLM 和具体的问题或查询。例如,基于修改的方法在较难的问题上表现更好,而它们实际上可能会损害在简单问题上的表现。
在论文中,他们开发了一种“最佳”策略,该策略基于一个评估查询难度级别的模型,然后适当地选择正确的策略。
8.3 测试时计算与预训练更大的模型
一个有趣的问题是,在给定固定计算预算的情况下,哪种方式更划算:使用更大的模型还是使用更多的推理时间预算?
这里,假设您为查询支付的价格是相同的,因为在推理中运行大型模型比运行小型模型成本更高。
他们发现,对于具有挑战性的问题,较大模型的表现优于通过前面讨论的推理扩展策略获得额外推理计算的较小模型。
然而,对于简单和中等难度的问题,可以使用推理时间计算来以相同的计算预算达到 14 倍大模型的性能!
8.4 测试时计算扩展的未来相关性
在使用像 Llama 3 等开源权重模型时,我们经常让它们按原样生成响应。然而,正如这篇论文所强调的,通过分配更多的推理计算可以显著提高响应质量。(如果您正在部署模型,这绝对是必读的论文。)
当然,增加大型、昂贵模型的推理计算预算会使它们的运行成本更高。然而,当根据查询的难度有选择地应用时,它可以为某些响应提供有价值的质量和准确性提升,这是大多数用户无疑会欣赏的。(可以肯定地说,OpenAI、Anthropic 和 Google 已经在幕后利用了这些技术。)
另一个引人注目的用例是增强较小的设备端 LLM 的性能。我认为这将是未来几个月和几年里的一个热门话题,正如我们在 Apple Intelligence 和 Microsoft Copilot PC 的重大公告和投资中所看到的那样。
9. 九月:比较多模态 LLM 范式
多模态 LLM 是我认为在 2024 年将取得重大飞跃的主要事物之一。是的,今年我们获得了更多开源权重的 LLM!
可以接受不同输入模态(音频、文本、图像和视频)并将文本作为输出模态的多模态 LLM 的示意图。
一篇特别引人注目的论文是 Dai 等人撰写的《英伟达的 NVLM:开放前沿级多模态 LLM》(2024 年 9 月),因为它很好地比较了两种主要的多模态范式。
9.1 多模态 LLM 范式
构建多模态 LLM 主要有两种方法:
开发多模态 LLM 架构的两种主要方法。
如上图所示,统一嵌入解码器架构(方法 A)依赖于单个解码器模型,类似于未经修改的 LLM 架构,如 GPT-2 或 Llama 3.2。此方法将图像转换为与文本词元共享相同嵌入大小的词元,从而使 LLM 能够处理连接的文本和图像输入词元。
相比之下,跨模态注意力架构(方法 B)结合了一种跨注意力机制,以直接在注意力层内集成图像和文本嵌入。
如果您有兴趣了解更多详细信息,我在今年早些时候专门写了一篇文章介绍多模态 LLM,其中逐步介绍了这两种方法:《理解多模态 LLM——主要技术和最新模型介绍》。
9.2 英伟达的混合方法
鉴于今年所有多模态的发展,对我来说,英伟达的论文《NVLM:开放前沿级多模态 LLM》因其对这些多模态方法的全面且同类比较而脱颖而出。他们没有专注于单一方法,而是直接比较了:
三种多模态方法的概述。(来自《NVLM:开放前沿级多模态 LLM》论文的带注释的图表:https://arxiv.org/abs/2409.11402)
如上图所示,NVLM-D 与方法 A 一致,NVLM-X 对应于前面讨论的方法 B。混合模型 (NVLM-H) 结合了两种方法的优点:它首先接受图像缩略图作为输入,然后是通过跨注意力处理的动态数量的图像块,以捕获更精细的高分辨率细节。
总之,主要发现如下:
9.3 2025 年的多模态 LLM
多模态 LLM 是一个有趣的方向。我认为它们是从常规的基于文本的 LLM 发展而来的下一个合乎逻辑的发展方向。大多数 LLM 服务提供商(如 OpenAI、Google 和 Anthropic)都支持多模态输入,如图像。就我个人而言,我大概只有 1% 的时间需要多模态功能(通常是类似于:“以 Markdown 格式提取表格”之类的内容)。我确实预计开源权重 LLM 的默认设置将是纯文本的,因为这样可以降低复杂性。同时,我确实认为随着工具和 API 的发展,我们将看到更多开源权重 LLM 的选择和广泛使用。
10. 十月:复现 OpenAI O1 的推理能力
我选择的 10 月份论文是 Quin 等人撰写的 O1 复现之旅:战略进展报告 - 第 1 部分(2024 年 10 月)。
OpenAI ChatGPT 的 o1(以及现在的 o3)已经获得了极大的关注,因为它们似乎代表了提高 LLM 在推理任务上性能的范式转变。
OpenAI 的 o1 的确切细节仍未公开,并且有几篇论文试图描述或复现它。那么,我为什么选择这篇论文呢?它不同寻常的结构和关于学术研究现状的更广泛的哲学论点引起了我的共鸣。换句话说,它有一些与众不同的独特之处,使其成为一个有趣的选择。
10.1 捷径学习与旅程学习
这篇论文的一个关键点是,研究人员假设 O1 采用了一种称为旅程学习的过程,而不是捷径学习,如下图所示。
传统上,LLM 在正确的解决方案路径上进行训练(捷径学习);在旅程学习中,监督微调包含整个试错纠正过程。来自《O1 复现报告》的带注释的图表,[2410.18982] O1 Replication Journey: A Strategic Progress Report -- Part 1
值得注意的是,旅程学习方法在某种程度上类似于基于树或集束搜索的方法,并带有修改,正如本文前面“8. 八月:通过扩展推理时间计算来改进 LLM”部分所讨论的那样。
然而,细微的区别在于,研究人员为模型微调创建了旅程学习训练示例,而不是简单地在推理期间应用此技术。(值得注意的是,我找不到任何关于他们用来增强推理过程的技术的信息。)
10.2 构建长思考
研究人员构建了一个推理树,从中推导出扩展的思考过程,强调试错。这种方法不同于传统方法,后者优先考虑找到具有有效中间步骤的正确答案的直接路径。在他们的框架中,推理树中的每个节点都用奖励模型提供的评分进行注释,指示该步骤是正确还是错误,以及证明此评估的推理。
接下来,他们通过监督微调和 DPO 训练了一个 deepseek-math-7b-base 模型。这里,他们训练了两个模型。
- 首先,他们使用传统的捷径训练范式,其中仅提供正确的中间步骤。
- 其次,他们使用他们提出的旅程学习方法来训练模型,该方法包括具有正确和错误答案、回溯等内容的思考过程。
(旁注:他们在每种情况下仅使用了 327 个示例!)
如下图所示,在 MATH500 基准数据集上,旅程学习过程的表现大幅优于捷径学习。
使用捷径和旅程学习训练的 LLM。来自《O1 复现报告》的带注释的图表,[2410.18982] O1 Replication Journey: A Strategic Progress Report -- Part 1
10.3 蒸馏——快速修复方法?
一个月后,该团队发布了另一份报告:《O1 复现之旅 - 第 2 部分:通过简单的蒸馏超越 O1-preview,是重大进步还是惨痛教训?》(2024 年 11 月),作者是 Huang 等人。
在这里,他们使用了一种蒸馏方法,这意味着他们使用精心的提示从 o1 中提取思考过程来训练模型以达到相同的性能。由于这是一篇很长的文章,我不会详细介绍,但我想分享该论文中一张有趣的图表,该图表总结了收集长思考数据的成本权衡。
占位符
他们通过这种蒸馏方法获得了非常好的性能,与 o1-preview 和 o1-mini 的性能相当。然而,除了这些实验之外,研究人员还分享了一些关于根据这种方法得出的研究现状的有趣且重要的思考,我将在下一节中总结这些思考。
10.4 人工智能研究现状
第 2 部分报告的一个重要焦点是“简单蒸馏的惨痛教训”。当然,蒸馏在实践中效果很好,但它并不是推动进步的因素。在最好的情况下,使用蒸馏,您可以匹配现有上游模型的性能(但您并没有创造新的性能记录)。以下是论文中的三段引言,可以作为关于当前现状的警示:
- “这种从‘它如何工作’到‘什么有效’的转变代表了研究心态的根本变化,可能会对该领域未来的创新能力产生深远的影响。”
- “这种第一性原理思维的削弱尤其令人担忧,因为它破坏了科学创新的根基。”
- “产生快速结果的压力可能会掩盖更深入技术调查的价值,而学生可能会被劝阻不要追求更具挑战性、更基础的研究方向。”
我个人的看法是,我仍然认为学术实验室(如今也经常与业界合作)产生了大量优秀且重要的想法,并且它们可能非常实用且具有影响力。(我想到的几个我最喜欢的例子是 LoRA 和 DPO。)问题在于,许多有前途的想法从未得到大规模测试,因为大学通常没有进行此类测试所需的大量资源。
我不确定完美的解决方案是什么,而且我确实意识到公司不能轻易泄露他们的商业机密。但是,如果公司最终使用了学术论文中的想法,并且他们公开承认这一点,那将非常有帮助。这种认可在激励和奖励那些免费提供其工作的研究人员方面大有裨益。此外,它还有助于通过找出在实践中真正有效的方法来推动该领域的发展。
10.5 从 O1(和 O3)的角度看 LLM 的未来
《O1 复现之旅》论文是否复现了 o1 背后的确切机制?可能不是。但它仍然是一本有价值的读物,其中充满了可以帮助取得更好结果的想法。我相信像 o1 和 o3 这样的“长思考”模型将继续在 LLM 研究中发挥关键作用。它们的运行成本更高,但它们基本上是推理任务性能的黄金标准或上限。
但是由于它们更高的成本,o1 类型的模型并不总是适合所有情况的最佳选择。对于语法修正或翻译等更简单的任务,我们可能不需要一个推理繁重的模型。这一切都归结为平衡成本和效用。我们根据预算、延迟和其他因素为工作选择合适的 LLM。
11. 十一月:LLM 精度缩放法则
我原本想选择 艾伦人工智能研究所的《Tulu 3:推动开放语言模型后训练的前沿》 论文,因为他们详细描述了他们的 Llama 后训练方法和配方,包括 DPO 与 PPO 的消融研究,以及一种称为具有可验证反馈的强化学习的新偏好对齐方法,他们使用可以轻松生成真实答案的可验证查询(例如数学和代码问题)而不是奖励模型。
但经过一番内部讨论后,我最终决定选择 Kumar 等人撰写的 《精度缩放法则》 论文(2024 年 11 月),因为它为 2022 年《训练计算最优大型语言模型》论文中的龙猫缩放法则提供了急需的更新,该论文用于确定预训练的计算最优 LLM 参数计数和数据集大小。
简而言之,《精度缩放法则》 论文(2024 年 11 月)扩展了龙猫的缩放法则,以考虑低精度设置(16 位及以下)下的训练和推理,这在近年来变得非常流行。例如,这篇论文将各种低精度和量化相关的观察结果统一为一个函数形式,该函数形式可以预测低精度训练和训练后量化带来的额外损失。
11.1 龙猫缩放法则回顾
2022 年《训练计算最优大型语言模型》 论文中最初的龙猫缩放法则模拟了 LLM 参数计数 (N) 和数据集大小 (D) 如何共同影响 LLM 的验证损失,并被用作确定 LLM 和训练数据集大小的指导方针。
根据经验,在数据集大小 D 和参数数量 N 之间取得最佳平衡(当您的计算预算固定时)约为 D/N ≈ 20。
这种数据参数比率通常被称为“龙猫最优”,因为在相同的总训练成本下,它比其他比率产生更低的验证损失。
但请注意,现代也有许多例外情况;例如,正如前面所讨论的,Llama 3 团队接受了 15 万亿个词元的训练,对于 8B 版本,这将是 15,000,000,000,000 ÷ 8,000,000,000 = 1,875。
在我看来,比确切的数据参数比率更重要的是,模型和数据集大小必须按比例缩放。
11.2 低精度训练
在进一步讨论(或者更确切地说,是总结)低精度缩放法则之前,让我先简要介绍一下通常用于 LLM(或深度神经网络)权重的不同数值精度格式。
据我所知,以下是用于训练 GPT 2 和 3 以及 Llama 2 和 3 模型以进行比较的精度格式:
Float32 是广泛用于训练深度神经网络的标准 32 位浮点格式,因为它在范围和精度之间提供了良好的平衡。如今,低于 float32 的所有内容都被认为是低精度(尽管“低”的定义有点像大型语言模型中“大”的定义一样,是一个不断变化的目标)。
Float16 或半精度仅使用 16 位,从而节省内存并加快计算速度,但提供了较窄的动态范围。
32 位和 16 位浮点精度之间的比较
Bfloat16(脑浮点 16)也是一种 16 位格式,但它牺牲了 float16 的一些精度来换取更大的指数,从而使其能够更有效地表示非常大和非常小的数字。因此,bfloat16 可以帮助避免深度学习应用程序中的数值上溢或下溢,尽管其较低的精度仍可能导致舍入误差。
常规 16 位浮点精度和流行的 16 位脑浮点精度之间的比较
如果您想了解有关不同精度格式及其对 LLM 模型行为的影响的更多信息,您可能会喜欢我之前的文章《缺失的位:Llama 2 权重已更改》中更长的介绍。
另请注意,我只展示了 32 位和 16 位格式,而目前正在竞相采用更低的精度进行训练,例如 Llama 3 论文中提到的 8 位格式(作为实验)。(12 月 26 日发布的 DeepSeek-v3 模型完全采用 8 位浮点精度进行预训练。)
11.3 精度缩放法则要点
这是一篇很长且很有趣的论文,我建议您完整阅读。然而,为了说明要点,研究人员通过添加“精度”因子 P 扩展了最初的龙猫缩放法则。具体来说,他们将模型参数计数 N 重新解释为随着精度降低而缩小的“有效参数计数”。(有关数学公式,请参阅论文。)
此外,他们还添加了一个额外的项来捕捉训练后量化如何降低模型性能。(我意识到我没有写量化的介绍,但由于本文篇幅过长,我可能不得不将此推迟到以后再写。)
下图很好地说明了,更多的预训练数据并不总是更好,如果模型在训练后以非常小的精度(int3)进行量化,实际上可能有害,我发现这非常有趣。
对于各种后量化格式,更多训练数据对验证损失的影响
因此,从上图中得出的一个结论可能是,在更多数据上训练的模型(如 Llama 3)由于在太多数据上“过度训练”,因此在训练后更难量化为较低的精度格式。
11.4 2025 年的模型缩放法则
除了为龙猫缩放法则提供急需的更新之外,关于精度缩放法则的研究还为 2025 年的一个关键挑战提供了一个有趣的视角:随着像 LLaMA-3 这样的模型在更大的数据集上进行训练,它们可能更难在不损失性能的情况下量化为 INT3 等低精度格式。
这一发现强调了需要重新思考“数据越多越好”的心态,在数据集大小与高效推理的实际约束之间取得平衡。这也是推动硬件优化的一个重要见解。
我认为在这些缩放法则研究中经常被忽视的一个方面是数据集的质量。我认为预训练数据的性质会产生重大影响。(下文关于 Phi-4 的讨论将详细介绍这一点。)
12. 十二月:Phi-4 和从合成数据中学习
2024 年下半年发布了几个有趣的模型,包括圣诞节那天发布的令人印象深刻的 DeepSeek-V3。虽然它可能不是最大的模型版本,但最终,我决定选择 微软的 Phi-4 技术报告,因为它提供了关于合成数据使用的有趣见解。
12.1 Phi-4 性能
Abdin 等人撰写的《Phi-4 技术报告》(2024 年 12 月)描述了微软最新的 140 亿参数开源权重 LLM 的训练。Phi-4 特别有趣的地方在于,它主要是在 GPT-4o 生成的合成数据上进行训练的。根据基准测试,它的性能优于类似大小的其他 LLM,包括它的前身 Phi-3,后者主要是在非合成数据上进行训练的。
phi-4 与类似大小和不同大小的其他模型的性能比较(来自 phi-4 论文的带注释的表格,https://arxiv.org/abs/2412.08905)
我不完全确定为什么该模型在 SimpleQA 上的表现较差,如上表所示。但一种可能的解释是,SimpleQA 是一个相对较新的基准测试,于 2024 年 10 月 30 日发布。由于它是 OpenAI 作为其评估套件的一部分开发的,因此它可能没有包含在 GPT-4o 的训练数据中或纳入网络爬取的数据集中。此外,由于 GPT-4o 用于为此评估生成合成数据,因此所有模型在训练期间都不会遇到 SimpleQA。然而,phi-4 可能对其他基准测试过度拟合,这可以解释它在这个未见过的 SimpleQA 数据集上相对较低的性能。总之,这只是我的假设。
12.2 合成数据学习
在总结本文中提出的一些消融研究之前,让我们先看看数据集的组成。
用于训练 phi-4 的数据集组合(来自 phi-4 论文的带注释的表格,https://arxiv.org/abs/2412.08905)。
研究人员观察到,虽然合成数据通常是有益的,但仅在合成数据上训练的模型在基于知识的基准测试中表现不佳。对我来说,这引出了一个问题:合成数据是否缺乏足够的特定知识信息,或者它是否包含更高比例的事实错误,例如由幻觉引起的错误?
同时,研究人员发现,与仅仅添加更多网络数据相比,增加合成数据的训练轮数可以更大程度地提高性能,如下图所示。
不同合成/网络数据集比率的模型性能比较。(来自 phi-4 论文的带注释的图表,https://arxiv.org/abs/2412.08905)。
总之,合成数据在组合中所占比例过高会对基于知识的性能产生负面影响。然而,在更平衡的合成数据与网络数据组合中,增加合成数据集的迭代次数(轮数)是有益的。
12.4 合成数据的未来重要性
phi-4 技术报告提供了关于合成数据使用的有趣见解,即它可以对模型预训练非常有益。特别是由于据说缩放法则在模型和数据集大小方面都趋于平稳(尽管 Llama 3 论文指出他们尚未在 15T 词元级别看到收敛),研究人员和工程师正在寻找其他方法来继续突破极限。当然,预训练技术的改进和添加,尤其是后训练技术,可能仍然是主要的推动因素,但我认为合成数据的使用将被视为一种有效的方法,可以 a) 使用更少的数据创建预训练的基础模型,或者 b) 创建更好的基础模型(想想 Llama 3 数据集中的 15 万亿个词元加上 40% 的合成数据词元)。
我认为使用高质量数据类似于迁移学习。与其在原始、非结构化的互联网数据上预训练模型并在后训练期间对其进行改进,不如利用由高质量模型(例如已经过广泛改进的 GPT-4o)生成的(一些)合成数据作为一种快速启动。换句话说,使用高质量的训练数据可以使模型从一开始就更有效地学习。
结论和展望
希望您觉得这些研究总结有用!与往常一样,这篇文章最终比我最初预期的要长。但是,让我用一个相对简短而活泼的部分来结束我对 2025 年的预测(或期望)。
多模态 LLM
去年,我预测 LLM 将变得越来越具有多模态性。现在,所有主要的专有 LLM 提供商都提供多模态(或至少图像)支持。因此,转型现在正在全面展开,我们还将看到更多针对此方向的开源努力。
根据我所看到和读到的内容,多模态论文的数量肯定急剧增加。也许紧随其后的是我的开源微调方法和资源;尽管我认为对于许多用例来说,纯文本就足够了,并且将继续足够,而且主要焦点将放在开发更好的推理模型上(如 o1 和即将推出的 o3)。
计算效率
预训练和使用 LLM 相对昂贵。因此,我预计在可预见的未来,我们将看到更多巧妙的技巧来提高 LLM 的计算效率。作为参考,假设 GPU 租赁标价(这还不包括超参数调整、失败的运行和人员成本),训练最近的 DeepSeek-v3 模型将花费 500 万美元。
来自 DeepSeek-v3 报告的粗略计算,DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub
顺便说一句,根据 Meta AI Llama 3 的官方模型卡,Llama 3 405B 使用的计算量甚至多出约 10 倍(3084 万 GPU 小时对比 266 万 GPU 小时)。
使 LLM 高效的技术的流行示例包括专家混合(正如我在第 1 部分文章中讨论的那样)、Llama 模型中发现的分组查询注意力以及许多其他技术。另一个有趣的技术是使用多头潜在注意力(如 DeepSeek 模型中所见)来提高多头注意力中 KV 缓存的效率。
另一个有趣的最新途径是针对模型输入。例如,最近提出的字节潜在 Transformer 通过将字节动态编码为基于熵的补丁来提高效率,从而优化计算以实现可扩展性和更快的无词元化推理。
状态空间模型
您可能已经注意到,我今年没有介绍状态空间模型。那是因为我目前的重点主要是基于 Transformer 的 LLM。虽然我觉得状态空间模型非常有趣,但它们在这个阶段似乎仍然相当具有实验性。此外,Transformer 继续在各种任务中表现出卓越的性能,这使得考虑替代方案不太具有吸引力。
然而,这并不意味着状态空间模型方面没有任何进展。我看到了一堆关于这方面的有趣论文。我注意到的一个有趣的趋势是,它们现在或多或少都是集成了 Transformer 模型自注意力的混合模型。例如,
- Jamba-1.5:大规模混合 Transformer-Mamba 模型,
- Llama 中的 Mamba:蒸馏和加速混合模型,
- 和 Samba:用于高效无限上下文语言建模的简单混合状态空间模型。
从这个意义上说,它们的计算成本也越来越高。随着对基于 Transformer 的 LLM 的效率调整以及向状态空间模型添加注意力,如果当前趋势继续下去,它们可能会在中间的某个地方相遇。这绝对是一个值得关注的有趣研究领域。
规模扩展
临近年底,也有一些关于 LLM 规模扩展“结束”的讨论,因为没有更多互联网数据了。这一讨论来自 Ilya Sutskever(OpenAI 的联合创始人之一和 GPT 论文的合著者)在 NeurIPS 的一次演讲,但不幸的是,我今年无法参加会议,因此我不熟悉具体细节。
无论如何,这是一个有趣的观点,因为互联网呈指数级增长。我找到的资料说它“每天增长 15.87 TB 的数据”。当然,挑战在于并非所有数据都是文本或对 LLM 训练有用。然而,正如我们在 Phi-4 中看到的那样,在数据整理和改进方面仍然存在很多机会,可以帮助仅从训练数据中取得一些飞跃。
我同意通过数据进行扩展的回报递减。我预计随着我们可能走向平稳,收益将越来越小。但这并不是一件坏事,因为它带来了其他改进机会。
我预计未来会有很大收获的一个显著领域是后训练。正如我去年夏天在我的文章《新的 LLM 预训练和后训练范式》中所写的那样,我们已经在最近发布的 LLM 中看到了这方面的一些发展。
我的期待
我真的很喜欢今年修补和(重新)实现各种 Llama 模型(3、3.1 和 3.2)。我真的很期待 Llama 4 的发布,希望它也能以小巧方便的尺寸发布,这样我就可以在我的笔记本电脑或经济实惠的云 GPU 上进行实验。
此外,今年我还想尝试更多专用模型的微调,而不是生成通用聊天机器人(这个领域已经非常拥挤了)。我们已经在各种代码和数学模型中看到了这一点(最近的 Qwen 2.5 Coder 和 Qwen 2.5 Math 就是我想到的例子,但不幸的是,我还没有机会在本报告中介绍它们)。
无论如何,我可以继续列出这份愿望清单和计划,因为 2025 年将是另一个有趣且快速发展的一年!这绝对不会无聊,这是肯定的!
这个博客是一个个人激情项目。对于那些希望支持我的人,请考虑购买一本我的 《从头构建大型语言模型》 书。(我相信您会从这本书中受益匪浅,因为它以其他任何地方都找不到的详细程度解释了 LLM 的工作原理。)
《从头构建大型语言模型》现已在 亚马逊 上架。
如果您读过这本书并且有几分钟的时间,我真的很感谢您提供一个 简短的评论。它对我们作者有很大帮助!
您的支持意义重大!谢谢!