当前位置:首页 > 科技资讯 > 正文

新优化器挑战:加速有限且随模型增大减弱

近年来,为减少大模型预训练成本,涌现出众多新优化器,宣称能较AdamW加速1.4×到2×。然而,斯坦福一项研究揭示,这些优化器的实际加速效果远低于宣传值,且随着模型规模扩大,其优势逐渐减弱,凸显了严格基准评测的重要性。

长久以来,预训练都是大模型训练中最耗资的部分。

以DeepSeek V3为例,其成本占比超过95%。

任何在此领域节省算力的尝试,都具有巨大的经济意义。

AdamW一度是「默认选项」,但新优化器相继问世,尽管它们大多声称能加速1.4×到2×,但实际成效却大打折扣。

斯坦福研究人员指出,这主要源于两个缺陷:

一是基线超参数设置不当;

二是许多实验局限于小规模模型,导致新优化器在更广泛场景下的表现存疑。

新优化器挑战:加速有限且随模型增大减弱 优化器 预训练加速 模型规模 基准评测 第1张

论文链接:https://arxiv.org/abs/2509.02046

有趣的是,该论文标题「神奇优化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),灵感源自《神奇动物在哪里》(Fantastic Beasts and Where to Find Them)。

不得不佩服大佬们的玩梗能力!

新优化器挑战:加速有限且随模型增大减弱 优化器 预训练加速 模型规模 基准评测 第2张

不同缩放范式下的加速差异

研究人员比较了不同模型缩放范式下的优化器加速效果。

他们在四种不同的数据-模型比(相当于Chinchilla最优范式的 1×、2×、4×、8×)下进行基准测试,并将模型规模扩展至1.2B参数。

新优化器挑战:加速有限且随模型增大减弱 优化器 预训练加速 模型规模 基准评测 第3张

图1左上显示,在GPT-3配方中,仅调整一个超参数就能让预训练加速2×,凸显了正确超参数优化的重要性。

研究表明,细致的超参数调优与训练结束时的评测在多个模型规模和数据-模型比上是必要的,原因有三:

首先,超参数不能盲目迁移,固定超参数会导致不公平的比较;

第二,新优化器的实际加速效果远低于宣传值,且随模型规模增大而减弱。相较于研究人员调优的AdamW基线,其他优化器的加速不超过1.4×;

此外,尽管Muon、Soap等新优化器在小模型(0.1B)上显示出1.3×加速,但在8×Chinchilla比例下的1.2B参数模型上,加速会降至约1.1×。

优化器设计的新见解

基于基准测试,研究人员提出了三个关于优化器设计的新观点:

1. 小模型更适合基于矩阵的优化器

研究发现,对于小模型,基于矩阵的优化器持续优于基于标量的优化器。

基于标量的优化器(如AdamW、Lion、Mars等)需通过标量操作逐个更新参数。

经适当调参后,所有基于标量的优化器的优化速度与AdamW相近,平均加速比不足1.2×。

尽管其更新规则多样,但在小于520M参数的模型上,基于矩阵的优化器相对AdamW可带来约1.3×的加速。

超参数的三种调参方式

研究人员对超参数采用了三种不同程度的调参方式:

阶段1:对超参数进行「细颗粒度」调参

在六种不同设置上执行该遍历,具体为1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。

对于每个优化器及上述六种范式,均找到了一个局部最优解。

实证发现

1. 在小模型上的结果

在所有模型规模与算力预算下,方差减少类Adam变体(NAdamW、Mars、Cautious)与基于矩阵的优化器均较AdamW基线有所加速。

然而,没有方法达到过往文献声称的2×加速。

各优化器的共性现象

新优化器挑战:加速有限且随模型增大减弱 优化器 预训练加速 模型规模 基准评测 第4张

研究发现相对AdamW的真实增益远小于此前报道。