当前位置：首页 > 科技资讯 > 正文

Meta AI大揭秘：田渊栋离职后的最新研究

田渊栋离职Meta后，其最新研究成果备受关注。他在Meta期间发表的一篇论文被NeurIPS 2025录用，揭示了AI优化中的独特规律。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第1张

研究中发现，强化学习与可验证奖励（RLVR）在提升模型性能时，几乎不会改变主方向上的权重，这背后存在一种由模型结构本身导致的优化偏置。

这项发现为理解AI的优化行为提供了新的视角。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第2张

论文中提出了“三门理论”，解释了RLVR的优化行为，并揭示了其独特的优化机制。

这项研究为RLVR的训练动态绘制了“参数层面全景图”，揭示了其优化方式与监督微调（SFT）的显著差异。

RL学习，优化偏差的奥秘

Meta团队在研究之初就提出了一个核心问题：优化偏差是如何产生的？它如何影响参数的变化？

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第3张

为了解答这个问题，他们深入研究了RLVR方法，发现它通过确定的、可验证的奖励函数来提高LLM在精确任务中的性能。

尽管使用的数据和算法不同，但RL在训练过程中会将更新集中在同一模型的相同区域。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第4张

每个面板展示的是一个更新掩码，显示了在五次RLVR运行中，不同数据集的更新模式呈现出稳定的条纹状，而非随机分布。

「三门」理论，解析黑盒

那么，是什么驱动了RLVR的独特训练动态呢？

研究人员提出了“三门理论”，即每一步RL更新都会经过三个“门”，共同将更新从主方向偏离，并引导进入低曲率、保持谱结构的区域。

门一：KL锚点对更新的约束

实验显示，同策略的RL更新会施加一种隐式的KL“牵引绳”，即锚点效应，使得每一步策略的偏移保持很小。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第5张

门二：模型几何结构决定KL约束下更新的落点

在预训练良好、具有结构化几何特性的模型中，小幅更新会局限在既有几何结构内。

门三：精度限制

有限精度会掩盖那些幅度过小、无法被有效存储的微更新。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第6张

研究揭示了RL在参数空间中的优化机制与SFT完全不同。

那些诞生于SFT时代的旧方法，在RLVR中的表现并不好。例如，LoRA比PiSSA（以主方向为目标）更为稳定，因为PiSSA在较高学习率下会早期崩溃。

Meta AI大揭秘：田渊栋离职后的最新研究田渊栋 AI研究优化偏差第7张

本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544642.html