田渊栋离职Meta后,其最新研究成果备受关注。他在Meta期间发表的一篇论文被NeurIPS 2025录用,揭示了AI优化中的独特规律。
研究中发现,强化学习与可验证奖励(RLVR)在提升模型性能时,几乎不会改变主方向上的权重,这背后存在一种由模型结构本身导致的优化偏置。
这项发现为理解AI的优化行为提供了新的视角。
论文中提出了“三门理论”,解释了RLVR的优化行为,并揭示了其独特的优化机制。
这项研究为RLVR的训练动态绘制了“参数层面全景图”,揭示了其优化方式与监督微调(SFT)的显著差异。
Meta团队在研究之初就提出了一个核心问题:优化偏差是如何产生的?它如何影响参数的变化?
为了解答这个问题,他们深入研究了RLVR方法,发现它通过确定的、可验证的奖励函数来提高LLM在精确任务中的性能。
尽管使用的数据和算法不同,但RL在训练过程中会将更新集中在同一模型的相同区域。
每个面板展示的是一个更新掩码,显示了在五次RLVR运行中,不同数据集的更新模式呈现出稳定的条纹状,而非随机分布。
「三门」理论,解析黑盒
那么,是什么驱动了RLVR的独特训练动态呢?
研究人员提出了“三门理论”,即每一步RL更新都会经过三个“门”,共同将更新从主方向偏离,并引导进入低曲率、保持谱结构的区域。
门一:KL锚点对更新的约束
实验显示,同策略的RL更新会施加一种隐式的KL“牵引绳”,即锚点效应,使得每一步策略的偏移保持很小。
门二:模型几何结构决定KL约束下更新的落点
在预训练良好、具有结构化几何特性的模型中,小幅更新会局限在既有几何结构内。
门三:精度限制
有限精度会掩盖那些幅度过小、无法被有效存储的微更新。
研究揭示了RL在参数空间中的优化机制与SFT完全不同。
那些诞生于SFT时代的旧方法,在RLVR中的表现并不好。例如,LoRA比PiSSA(以主方向为目标)更为稳定,因为PiSSA在较高学习率下会早期崩溃。
本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544642.html