当前位置:首页 > 科技资讯 > 正文

Meta AI大揭秘:田渊栋离职后的最新研究

田渊栋离职Meta后,其最新研究成果备受关注。他在Meta期间发表的一篇论文被NeurIPS 2025录用,揭示了AI优化中的独特规律。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第1张

研究中发现,强化学习与可验证奖励(RLVR)在提升模型性能时,几乎不会改变主方向上的权重,这背后存在一种由模型结构本身导致的优化偏置。

这项发现为理解AI的优化行为提供了新的视角。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第2张

论文中提出了“三门理论”,解释了RLVR的优化行为,并揭示了其独特的优化机制。

这项研究为RLVR的训练动态绘制了“参数层面全景图”,揭示了其优化方式与监督微调(SFT)的显著差异。

RL学习,优化偏差的奥秘

Meta团队在研究之初就提出了一个核心问题:优化偏差是如何产生的?它如何影响参数的变化?

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第3张

为了解答这个问题,他们深入研究了RLVR方法,发现它通过确定的、可验证的奖励函数来提高LLM在精确任务中的性能。

尽管使用的数据和算法不同,但RL在训练过程中会将更新集中在同一模型的相同区域。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第4张

每个面板展示的是一个更新掩码,显示了在五次RLVR运行中,不同数据集的更新模式呈现出稳定的条纹状,而非随机分布。

「三门」理论,解析黑盒

那么,是什么驱动了RLVR的独特训练动态呢?

研究人员提出了“三门理论”,即每一步RL更新都会经过三个“门”,共同将更新从主方向偏离,并引导进入低曲率、保持谱结构的区域。

门一:KL锚点对更新的约束

实验显示,同策略的RL更新会施加一种隐式的KL“牵引绳”,即锚点效应,使得每一步策略的偏移保持很小。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第5张

门二:模型几何结构决定KL约束下更新的落点

在预训练良好、具有结构化几何特性的模型中,小幅更新会局限在既有几何结构内。

门三:精度限制

有限精度会掩盖那些幅度过小、无法被有效存储的微更新。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第6张

RL算法的新思考

研究揭示了RL在参数空间中的优化机制与SFT完全不同。

那些诞生于SFT时代的旧方法,在RLVR中的表现并不好。例如,LoRA比PiSSA(以主方向为目标)更为稳定,因为PiSSA在较高学习率下会早期崩溃。

Meta AI大揭秘:田渊栋离职后的最新研究 田渊栋 AI研究 优化偏差 第7张