新优化器挑战：加速有限且随模型增大减弱

主机测评网
科技资讯
2026-04-27
1000

近年来，为减少大模型预训练成本，涌现出众多新优化器，宣称能较AdamW加速1.4×到2×。然而，斯坦福一项研究揭示，这些优化器的实际加速效果远低于宣传值，且随着模型规模扩大，其优势逐渐减弱，凸显了严格基准评测的重要性。

长久以来，预训练都是大模型训练中最耗资的部分。

以DeepSeek V3为例，其成本占比超过95%。

任何在此领域节省算力的尝试，都具有巨大的经济意义。

AdamW一度是「默认选项」，但新优化器相继问世，尽管它们大多声称能加速1.4×到2×，但实际成效却大打折扣。

斯坦福研究人员指出，这主要源于两个缺陷：

一是基线超参数设置不当；

二是许多实验局限于小规模模型，导致新优化器在更广泛场景下的表现存疑。

新优化器挑战：加速有限且随模型增大减弱优化器预训练加速模型规模基准评测第1张

论文链接：https://arxiv.org/abs/2509.02046

有趣的是，该论文标题「神奇优化器在哪里」（Fantastic Pretraining Optimizers and Where to Find Them），灵感源自《神奇动物在哪里》（Fantastic Beasts and Where to Find Them）。

不得不佩服大佬们的玩梗能力！

新优化器挑战：加速有限且随模型增大减弱优化器预训练加速模型规模基准评测第2张

不同缩放范式下的加速差异

研究人员比较了不同模型缩放范式下的优化器加速效果。

他们在四种不同的数据-模型比（相当于Chinchilla最优范式的 1×、2×、4×、8×）下进行基准测试，并将模型规模扩展至1.2B参数。

新优化器挑战：加速有限且随模型增大减弱优化器预训练加速模型规模基准评测第3张

图1左上显示，在GPT-3配方中，仅调整一个超参数就能让预训练加速2×，凸显了正确超参数优化的重要性。

研究表明，细致的超参数调优与训练结束时的评测在多个模型规模和数据-模型比上是必要的，原因有三：

首先，超参数不能盲目迁移，固定超参数会导致不公平的比较；

第二，新优化器的实际加速效果远低于宣传值，且随模型规模增大而减弱。相较于研究人员调优的AdamW基线，其他优化器的加速不超过1.4×；

此外，尽管Muon、Soap等新优化器在小模型（0.1B）上显示出1.3×加速，但在8×Chinchilla比例下的1.2B参数模型上，加速会降至约1.1×。

优化器设计的新见解

基于基准测试，研究人员提出了三个关于优化器设计的新观点：

1. 小模型更适合基于矩阵的优化器

研究发现，对于小模型，基于矩阵的优化器持续优于基于标量的优化器。

基于标量的优化器（如AdamW、Lion、Mars等）需通过标量操作逐个更新参数。

经适当调参后，所有基于标量的优化器的优化速度与AdamW相近，平均加速比不足1.2×。

尽管其更新规则多样，但在小于520M参数的模型上，基于矩阵的优化器相对AdamW可带来约1.3×的加速。

超参数的三种调参方式

研究人员对超参数采用了三种不同程度的调参方式：

阶段1：对超参数进行「细颗粒度」调参

在六种不同设置上执行该遍历，具体为1×Chinchilla下的130M、300M、500M，以及2×、4×、8×Chinchilla下的130M。

对于每个优化器及上述六种范式，均找到了一个局部最优解。

实证发现

1. 在小模型上的结果

在所有模型规模与算力预算下，方差减少类Adam变体（NAdamW、Mars、Cautious）与基于矩阵的优化器均较AdamW基线有所加速。

然而，没有方法达到过往文献声称的2×加速。

各优化器的共性现象

新优化器挑战：加速有限且随模型增大减弱优化器预训练加速模型规模基准评测第4张

研究发现相对AdamW的真实增益远小于此前报道。

高防服务器免费vps 性价比服务器

本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440873.html

新优化器挑战：加速有限且随模型增大减弱

不同缩放范式下的加速差异

优化器设计的新见解

超参数的三种调参方式

实证发现

各优化器的共性现象

2025年8月应用投流情报：短剧微降，小说崛起

剑桥音乐才子弃音乐投身AI，押注第四次工业革命

新优化器挑战：加速有限且随模型增大减弱

不同缩放范式下的加速差异

优化器设计的新见解

超参数的三种调参方式

实证发现

各优化器的共性现象

2025年8月应用投流情报：短剧微降，小说崛起

剑桥音乐才子弃音乐投身AI，押注第四次工业革命

相关文章