近年来,为减少大模型预训练成本,涌现出众多新优化器,宣称能较AdamW加速1.4×到2×。然而,斯坦福一项研究揭示,这些优化器的实际加速效果远低于宣传值,且随着模型规模扩大,其优势逐渐减弱,凸显了严格基准评测的重要性。
长久以来,预训练都是大模型训练中最耗资的部分。
以DeepSeek V3为例,其成本占比超过95%。
任何在此领域节省算力的尝试,都具有巨大的经济意义。
AdamW一度是「默认选项」,但新优化器相继问世,尽管它们大多声称能加速1.4×到2×,但实际成效却大打折扣。
斯坦福研究人员指出,这主要源于两个缺陷:
一是基线超参数设置不当;
二是许多实验局限于小规模模型,导致新优化器在更广泛场景下的表现存疑。
论文链接:https://arxiv.org/abs/2509.02046
有趣的是,该论文标题「神奇优化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),灵感源自《神奇动物在哪里》(Fantastic Beasts and Where to Find Them)。
不得不佩服大佬们的玩梗能力!
研究人员比较了不同模型缩放范式下的优化器加速效果。
他们在四种不同的数据-模型比(相当于Chinchilla最优范式的 1×、2×、4×、8×)下进行基准测试,并将模型规模扩展至1.2B参数。
图1左上显示,在GPT-3配方中,仅调整一个超参数就能让预训练加速2×,凸显了正确超参数优化的重要性。
研究表明,细致的超参数调优与训练结束时的评测在多个模型规模和数据-模型比上是必要的,原因有三:
首先,超参数不能盲目迁移,固定超参数会导致不公平的比较;
第二,新优化器的实际加速效果远低于宣传值,且随模型规模增大而减弱。相较于研究人员调优的AdamW基线,其他优化器的加速不超过1.4×;
此外,尽管Muon、Soap等新优化器在小模型(0.1B)上显示出1.3×加速,但在8×Chinchilla比例下的1.2B参数模型上,加速会降至约1.1×。
基于基准测试,研究人员提出了三个关于优化器设计的新观点:
1. 小模型更适合基于矩阵的优化器
研究发现,对于小模型,基于矩阵的优化器持续优于基于标量的优化器。
基于标量的优化器(如AdamW、Lion、Mars等)需通过标量操作逐个更新参数。
经适当调参后,所有基于标量的优化器的优化速度与AdamW相近,平均加速比不足1.2×。
尽管其更新规则多样,但在小于520M参数的模型上,基于矩阵的优化器相对AdamW可带来约1.3×的加速。
研究人员对超参数采用了三种不同程度的调参方式:
阶段1:对超参数进行「细颗粒度」调参
在六种不同设置上执行该遍历,具体为1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。
对于每个优化器及上述六种范式,均找到了一个局部最优解。
1. 在小模型上的结果
在所有模型规模与算力预算下,方差减少类Adam变体(NAdamW、Mars、Cautious)与基于矩阵的优化器均较AdamW基线有所加速。
然而,没有方法达到过往文献声称的2×加速。
研究发现相对AdamW的真实增益远小于此前报道。
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440873.html