当前位置:首页 > 科技资讯 > 正文

深度学习优化器:矩阵方法与AdamW的较量

自2014年问世以来,Adam及其增强版AdamW便稳居大型语言模型预训练优化器的宝座,助力模型在海量数据中保持稳定并实现快速收敛。

随着模型规模日益庞大,预训练已成为计算密集型任务的典型代表,大模型研发中的计算开销也愈发显著。在此背景下,优化器的设计成为影响收敛速度与计算成本的关键因素。

研究者们探索了多种改进方向,其中最快优化器多采用矩阵型预条件子(如Muon、Soap、Kron),相较于经过严格调优的AdamW,可带来约30–40%的迭代级加速。

斯坦福大学Percy Liang团队的研究表明,尽管存在诸多声称能提供显著加速(1.4至2倍)的替代方案,AdamW依然是预训练的稳健首选,但矩阵型方法在特定数据–模型比例下展现出明显优势。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第1张

  • 论文标题:Fantastic Pretraining Optimizers andWhere to Find Them
  • 论文地址:https://www.arxiv.org/pdf/2509.02046v1
  • Github:https://github.com/marin-community/marin/issues/1290
  • 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者认为,这种现象可能源于两个关键的方法论缺陷:

  • 问题 1:不公平的超参数调优。

基线模型通常调优不足:在常用的AdamW基线中,仅调整学习率这一参数,就能在1.3亿参数规模的模型上实现2倍加速。这凸显了恰当超参数优化的重要性。

固定共享的超参数无法保证比较公平性:例如,与标准权重衰减值0.1相比,Lion优化器更偏好较高的权重衰减值(如0.6)。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第2张

左图展示了常用的AdamW基线存在调优不足的问题。在Brown等人[2020]提出、并被后续多项研究采用的GPT-3训练方案中,仅针对一个1亿参数的模型调整学习率这一超参数,便可实现高达2倍的加速。右图说明在不同优化器之间固定超参数无法保证比较的公平性。

  • 问题 2:测试规模不足

大多数测试仅使用小型模型(参数远小于10亿)或遵循Chinchilla论文提出的1倍数据配比。那么,在更大规模的模型或更高的数据配比下,结果会如何呢?

此外,训练早期的检查点也可能产生误导。在学习率衰减阶段,不同方法的损失曲线可能会发生交叉,导致最终排名反转。因此,必须在不同设定下进行训练结束时的最终评估。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第3张

左图显示加速效果随模型规模的增大而衰减。尽管一些优化器在参数量小于10亿的模型上相比AdamW能展现出较高的加速比(1.3-1.4倍),但当模型规模增至12亿参数时,其加速比会衰减至仅1.1倍。右图则展示了基于矩阵的优化器性能稳定优于基于标量的优化器。

为了验证这一假设,研究人员进行了系统性的比较研究,涵盖了十一种不同的深度学习优化器。他们在多种模型规模(从1亿到12亿参数)和数据–模型比例(参照Chinchilla最优比例的1倍至8倍)下,为每一种优化器都进行了严谨、独立的超参数调优。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第4张

研究发现:

  • 独立调优至关重要:一个优化器的最优超参数配置往往无法直接迁移到另一种优化器上。如果缺乏独立调优,不仅比较结果缺乏公平性,而且新优化器相较于精心调优过的AdamW,实际加速效果远低于其声称的数值。
  • 短期评估具有误导性:仅在短时间训练窗口内评估优化器性能是不可靠的。随着训练进行和学习率衰减,不同优化器的性能排名可能发生逆转,其损失曲线甚至会多次交叉。
  • 矩阵方法性能领先:所有速度最快的优化器均采用了基于矩阵的预条件子,而非传统的逐元素标量缩放。Muon、Soap和Kron等方法相比严格调优后的AdamW,能实现30–40%的单步训练速度提升。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第5张

方法

研究设计了一套严谨的方法论来评估这些优化器,该方法分为三个主要阶段。首先是通用设置阶段,明确了实验环境。研究使用了四种不同规模的Transformer模型,参数量从130M到1.2B,序列长度均为4096,并详细列举了各模型层数、隐藏维度等具体配置。

深度学习优化器:矩阵方法与AdamW的较量 深度学习 优化器 矩阵方法 AdamW 第6张

数据方面,研究混合使用了DCLM-baseline、StarCoder V2和ProofPile 2数据集,并使用LLaMA-3分词器进行分词,确保了训练数据的丰富性。评估的优化器涵盖了AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD)、Soap和Sophia,代表了当前深度学习优化领域的主流和前沿方法。

阶段I:全面参数扫描

研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法,对所有优化器的超参数(包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小)在预设网格上进行了详尽搜索。

这一阶段的实验设置涵盖了130M、300M和500M模型在1倍Chinchilla数据量下的训练,以及130M模型在2倍、4倍、8倍Chinchilla数据量下的训练。

研究发现对每个优化器进行严格超参数调整至关重要,因为不同优化器之间的最优超参数配置差异显著,盲目迁移超参数会导致不公平的比较。

阶段II:敏感超参数识别

研究根据第一阶段的结果识别出那些最优值会随模型规模变化的敏感超参数(如学习率和预热长度)。随后这些敏感超参数在300M和5... ...