Meta前员工田渊栋及其团队持续发表着他们的研究成果,这次他们将目光聚焦于大模型强化学习训练中的一个令人困惑的现象:尽管RL训练带来了显著的性能提升,但为何只有极少数的参数发生了变化。
论文深入剖析了可验证奖励强化学习(RLVR)的训练动态,揭示了一个误区:参数更新的稀疏性只是表面现象,背后隐藏着RLVR的固定优化偏好。
对于同一个预训练模型,无论采用何种数据集和RL算法,RLVR都只会针对同一小部分参数进行修改。
团队还提出了一个全新的三门理论(Three-Gate Theory),逐步阐述了RLVR的参数更新是如何定位到特定参数区域的。
像OpenAI-o3和DeepSeek-R1这样的推理模型,通过大规模RLVR训练,在数学和编程能力上实现了大幅提升。
理论上,如此巨大的能力提升应伴随着大量参数的改变,但近期研究发现,RL训练产生的参数更新是稀疏的,而监督微调(SFT)的参数更新则是密集的。
这种高收益、低变化的悖论引起了Meta团队的关注。
他们分析了多个开源模型,包括Qwen系列和DeepSeek-R1-Distill-Qwen,这些模型经过超过3000步的长时间RL训练,涵盖了多样化的任务。
通过设计一种bfloat16精度感知的探测方法,研究团队准确测量了参数更新的稀疏度。结果显示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高达36%到92%,相差了一个数量级。
但更重要的是,这种稀疏性只是表面现象,背后隐藏着一个更深层的机制:模型条件优化偏差(model-conditioned optimization bias)。
为了解释这种独特的训练行为,研究团队提出了三门理论,解释了RL更新是如何被约束、引导和过滤的。
第一门:KL锚定(KL Anchor)。
尽管RLVR的核心是“试错学习”,但其更新不会让模型的输出风格偏离太多。
在线策略梯度更新会在每一步施加策略KL界限,即使在没有显式KL正则项的DAPO算法中,比例裁剪技巧仍然会施加O(ε²)的KL界限。这种锚定效应确保了每步相对于当前策略的漂移很小,进而限制了参数的移动范围。
第二门:模型几何(Model Geometry)。
预训练模型拥有高度结构化的几何特性,比如负责核心逻辑的参数对应高曲率区域,改动起来影响大但容易不稳定。
在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向。
反观SFT,因为修改高曲率区域容易接近标准答案,但改多了会打乱模型原有的能力框架,反而不利于复杂推理。
第三门:精度过滤(Precision)。
bfloat16的有限精度充当了一个透镜,隐藏了在RL不愿施加大改变区域的微小更新。
由于bfloat16只有7位尾数,小于单位最低位(ULP)阈值的变化无法表示。如果RL持续更新路由到特定参数子集,存储的值就不会改变,结果就表现为稀疏性。
如果换成更高精度(比如float32),会发现更多参数改动。
论文进行了大量实验验证上述逻辑,确认了RLVR和SFT在参数空间中的优化区域完全不同。
这项研究不仅解释了观察到的现象,还为RL训练算法的设计提供了指导。
团队的发现表明,许多SFT时代的参数高效微调(PEFT)方法,特别是通过稀疏或低秩先验与主方向对齐的方法,在RLVR中的迁移效果很差。
本文由主机测评网于2026-05-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544614.html