前Meta研究员们持续输出重要成果,此次田渊栋团队聚焦于大模型强化学习训练中的一个谜题:为什么RL训练能带来巨大性能飞跃,却仅改变极少数参数。
研究深入分析了可验证奖励强化学习(RLVR)的训练动态,打破了一个常见误解:参数更新的稀疏性仅是表象,其背后是RLVR存在固定的优化偏好。
对于同一预训练模型,无论使用何种数据集或RL算法,RLVR都倾向于修改同一小部分参数。
团队创新性地提出了三门理论(Three-Gate Theory),逐步阐明RLVR如何将参数更新定位到特定区域。
诸如OpenAI-o3和DeepSeek-R1等推理模型,通过大规模RLVR训练实现了数学和编程能力的显著提升。
理论上,这种能力飞跃应伴随大量参数变化,但近期研究发现RL训练的更新是稀疏的,而监督微调(SFT)的更新则相对密集。
这种高收益与低变化之间的矛盾引起了Meta团队的深入探究。
他们分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型,这些模型经历了超过3000步的长期RL训练,覆盖数学、编程、STEM、逻辑谜题和指令遵循等多种任务。
通过设计一种bfloat16精度感知的探测方法,团队精确测量了参数更新的稀疏度。数据显示,SFT的稀疏度通常在0.6%到18.8%之间,而RL的稀疏度高达36%到92%,相差一个数量级。
但关键发现在于,稀疏性背后隐藏着更深层机制:模型条件优化偏差(model-conditioned optimization bias)。
为解释这一独特训练行为,团队提出三门理论,详细描述RL更新如何被约束、引导和过滤。
第一门:KL锚定(KL Anchor)。
RLVR核心是“试错学习”,但每次更新会防止模型输出风格大幅偏离(例如,原模型简洁,训练后不会变得冗长)。
其原理在于,在线策略梯度更新会在每一步施加策略KL界限。
即使在没有显式KL正则项的DAPO算法中,比例裁剪技巧仍会施加O(ε²)的KL界限。这种锚定效应确保每步相对于当前策略的漂移很小,从而限制参数移动范围。
第二门:模型几何(Model Geometry)。
预训练模型具有高度结构化的几何特性,例如负责核心逻辑的参数对应高曲率区域,改动影响大但易不稳定。
在KL约束下,RL更新倾向于保持原始权重结构,自然偏向优化景观中的低曲率方向。
相比之下,SFT因修改高曲率区域易接近标准答案,但过度改动会扰乱模型原有能力框架,不利于复杂推理。
第三门:精度过滤(Precision)。
bfloat16的有限精度充当了透镜,隐藏了RL不愿大幅改动区域的微小更新。
由于bfloat16仅7位尾数,小于单位最低位(ULP)阈值的变化无法表示。若RL持续更新路由到特定参数子集,存储值不变,结果表现为稀疏性。
若切换至高精度(如float32),会发现更多参数改动。
论文通过大量实验验证上述逻辑,确认RLVR和SFT在参数空间中的优化区域完全不同。
通过分析奇异值分解(SVD)重构后的主成分权重,团队发现RL更新与主成分权重重叠度始终低于随机水平,表明RL强烈倾向避开这些权重。相反,RL更新与低幅度权重显示出超随机重叠,因它们对微小更新阻力较低。
在因果性验证实验中,团队通过正交旋转和头部置换故意扰乱Qwen3-4B-Base模型特定层的几何结构。结果显示,被干预层中更新重叠度降至随机水平,未触及层中保持较高,这证明预训练模型的几何结构是优化偏差来源。
在光谱分析中,RLVR检查点在顶部主成分内展现明显稳定谱:跨层主子空间旋转一致较小,谱漂移最小。奇异值曲线几乎与基础模型相同。相较之下,SFT在相同指标上引起显著更大旋转和明显漂移。
此项研究不仅解释观察现象,还为RL训练算法设计提供指导。
团队发现表明,许多SFT时代的参数高效微调(PEFT)方法,特别是通过稀疏或低秩先验与主方向对齐的方法,在RLVR中迁移效果较差。
在稀疏微调实验中,仅更新主成分权重(SFT偏好方向)产生最差优化轨迹,KL曲线上升缓慢,显示过度干预和退化训练动态。
相反,更新非主成分、低幅度权重恰好符合理论预测的离主成分区域,能紧密跟踪密集RLVR轨迹。
针对近期流行的LoRA变体,研究发现主成分定向的PiSSA并未比标准LoRA带来额外收益。
在用于匹配全参数性能的较高学习率下,PiSSA常不稳定并提前崩溃。这是因为PiSSA中扩大学习率会强制沿主方向更新,这些方向具有更高曲率和谱扭曲特性,正是RLVR倾向避免的方向。
论文地址:https://arxiv.org/abs/2511.08567
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120285.html