自2014年问世以来,Adam及其增强版AdamW便稳居大型语言模型预训练优化器的宝座,助力模型在海量数据中保持稳定并实现快速收敛。
随着模型规模日益庞大,预训练已成为计算密集型任务的典型代表,大模型研发中的计算开销也愈发显著。在此背景下,优化器的设计成为影响收敛速度与计算成本的关键因素。
研究者们探索了多种改进方向,其中最快优化器多采用矩阵型预条件子(如Muon、Soap、Kron),相较于经过严格调优的AdamW,可带来约30–40%的迭代级加速。
斯坦福大学Percy Liang团队的研究表明,尽管存在诸多声称能提供显著加速(1.4至2倍)的替代方案,AdamW依然是预训练的稳健首选,但矩阵型方法在特定数据–模型比例下展现出明显优势。
研究者认为,这种现象可能源于两个关键的方法论缺陷:
基线模型通常调优不足:在常用的AdamW基线中,仅调整学习率这一参数,就能在1.3亿参数规模的模型上实现2倍加速。这凸显了恰当超参数优化的重要性。
固定共享的超参数无法保证比较公平性:例如,与标准权重衰减值0.1相比,Lion优化器更偏好较高的权重衰减值(如0.6)。
左图展示了常用的AdamW基线存在调优不足的问题。在Brown等人[2020]提出、并被后续多项研究采用的GPT-3训练方案中,仅针对一个1亿参数的模型调整学习率这一超参数,便可实现高达2倍的加速。右图说明在不同优化器之间固定超参数无法保证比较的公平性。
大多数测试仅使用小型模型(参数远小于10亿)或遵循Chinchilla论文提出的1倍数据配比。那么,在更大规模的模型或更高的数据配比下,结果会如何呢?
此外,训练早期的检查点也可能产生误导。在学习率衰减阶段,不同方法的损失曲线可能会发生交叉,导致最终排名反转。因此,必须在不同设定下进行训练结束时的最终评估。
左图显示加速效果随模型规模的增大而衰减。尽管一些优化器在参数量小于10亿的模型上相比AdamW能展现出较高的加速比(1.3-1.4倍),但当模型规模增至12亿参数时,其加速比会衰减至仅1.1倍。右图则展示了基于矩阵的优化器性能稳定优于基于标量的优化器。
为了验证这一假设,研究人员进行了系统性的比较研究,涵盖了十一种不同的深度学习优化器。他们在多种模型规模(从1亿到12亿参数)和数据–模型比例(参照Chinchilla最优比例的1倍至8倍)下,为每一种优化器都进行了严谨、独立的超参数调优。
研究发现:
研究设计了一套严谨的方法论来评估这些优化器,该方法分为三个主要阶段。首先是通用设置阶段,明确了实验环境。研究使用了四种不同规模的Transformer模型,参数量从130M到1.2B,序列长度均为4096,并详细列举了各模型层数、隐藏维度等具体配置。
数据方面,研究混合使用了DCLM-baseline、StarCoder V2和ProofPile 2数据集,并使用LLaMA-3分词器进行分词,确保了训练数据的丰富性。评估的优化器涵盖了AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD)、Soap和Sophia,代表了当前深度学习优化领域的主流和前沿方法。
阶段I:全面参数扫描
研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法,对所有优化器的超参数(包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小)在预设网格上进行了详尽搜索。
这一阶段的实验设置涵盖了130M、300M和500M模型在1倍Chinchilla数据量下的训练,以及130M模型在2倍、4倍、8倍Chinchilla数据量下的训练。
研究发现对每个优化器进行严格超参数调整至关重要,因为不同优化器之间的最优超参数配置差异显著,盲目迁移超参数会导致不公平的比较。
阶段II:敏感超参数识别
研究根据第一阶段的结果识别出那些最优值会随模型规模变化的敏感超参数(如学习率和预热长度)。随后这些敏感超参数在300M和5... ...
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440840.html