当前位置:首页 > 科技资讯 > 正文

田渊栋揭秘AI大模型“顿悟”机制:从记忆到泛化的数学路径

Meta首席执行官马克·扎克伯格近期批准了一项涉及约600名员工的AI部门裁员计划,这是Meta在人工智能领域今年规模最大的一次调整,主要波及公司核心研发机构。

时任Meta FAIR团队负责人的田渊栋在社交媒体上证实:“我和我的部分团队成员也受到此次裁员影响”。作为“超智能实验室”(MSL)科研体系中的核心支柱之一,田渊栋的离开也引发了业界的广泛关注。

在此消息公布后,田渊栋首次公开露面,接受了腾讯科技特约作者的独家深度访谈。

面对行业中的质疑,田渊栋在此做出澄清和“正名”:他的团队在Meta大模型开发中也做出了大量贡献和重要工作。然而,他们面临的最大挑战并非技术本身,而是如何说服产品团队。

随后,访谈重心转向了田渊栋的近期研究成果,着重探讨了有关AI大模型的“顿悟(Grokking)”。

“Grokking”源自科幻作家罗伯特·海因莱因,意指对事物本质的深刻理解。大语言模型的高分不意味着智慧,真正的临界点在于它第一次学会“思考”的那一刻。

今年9月,田渊栋发表了一篇独立论文,指出Grokking不是神秘涌现,而是可计算的能量景观动力学。

田渊栋揭秘AI大模型“顿悟”机制:从记忆到泛化的数学路径 Grokking 大模型 AI学习 机制理解 第1张

  • 论文标题:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
  • 论文链接:arxiv.org/abs/2509.21519

田渊栋的研究揭示了AI学习的核心突破:在群运算任务中,任务复杂度为M(如词汇量或概念数),传统认为模型需穷举M²种组合才能学会规律,数据需求随M平方增长。而他以严格数学证明,模型仅需O(M log M)个样本即可实现泛化——近乎线性增长。以M=1000为例,以往需百万级样本,而新理论仅约7000个。

这意味着,AI无需“看遍世界”式的暴力学习,也能像人类一样,从极少样本中顿悟深层结构,为数据受限时代的高效训练提供了理论依据。

在这场访谈中,田渊栋解读了Grokking的研究,揭示了AI学习从“记忆式拟合”跃迁到“结构化泛化”的内在机制。

此外,田渊栋在访谈中透露,AI对这篇论文的贡献也很大,其中的一些思考是他和GPT-5进行对话后产生的。他调侃道:“这听起来有点像self-play(自娱自乐)。不过在对话的过程中,需要给它一些insight(洞察)和思考,它才会有不一样的输出”。

本次访谈的核心观点如下:

  • Grokking揭示了从记忆到泛化的数学机制:从记忆到泛化不是神秘涌现,而是优化动力学;数据不足时“记忆峰”占优,数据增多时“泛化峰”升高;一旦泛化峰略高,参数集体翻越,产生顿悟现象。
  • 表征学习是所有智能能力的基础;无论是思维链推理还是直觉判断,其根本都取决于模型如何“表示”与“理解”世界;真正的飞跃源于表征方式的改变。
  • Loss Function(损失函数)只是优化的代理信号;其作用是生成合适的梯度流,引导表征朝正确方向更新;不同损失函数若诱导出相似的梯度结构,就能学到近似的表征。
  • 黑盒Scaling强调堆参数、调配置;短期高效;机制理解则追求解释与结构;长期天花板更高;当数据触顶、样本稀缺时,Scaling Law失效;唯有机理导向的改进才能突破局限。

以下为完整版访谈内容,腾讯科技在不改变原意的情况下进行了精编整理:

01、Meta裁员事件后的澄清:为团队正名

课代表立正:最近看到了一些关于你(离开 Meta)的消息。

田渊栋:是的,现在算是比较“自由”吧,可以做任何想做的事情了。

课代表立正:恭喜!我是在准备这次访谈的时候才注意到,你已经在 Meta 工作了整整十年。

田渊栋:我加入的时候大概有一万多人。

课代表立正:其实那个时候 Meta 也不算是小公司了。我记得它是2012年上市的?

田渊栋:对,现在应该大约近8万人左右。

课代表立正:我们今天的访谈可以从你的论文聊起,也可以顺便聊聊最近的一些动向。

田渊栋:都可以。我更愿意聊论文。我之所以近期会在 X平台上发声,是因为看到有人站出来猜测和质疑是否是因为没有做出公司预期的成果。对此我必须要为我的团队澄清一下:我们团队做了很多非常重要的工作,不能把责任推到我们身上。这一点必须说清楚。

02、研究员的核心价值是洞察力

课代表立正:作为研究团队你们并没有被完全信任的原因是什么?沟通时接触的大模型团队是怎样的?

田渊栋:他们的整体经验确实非常丰富。但在某些实验中出现了程序错误(bug),由此做出了错误判断。我们这边虽然没有直接参与超大模型的训练,但一直在做大模型相关的研究。

真正的难点在于如何说服别人。我们需要花很多时间和精力去解释、论证这些问题的存在

03、“顿悟”如何发生

“顿悟”发生在reasoning或其他任务之下的“共同底层”机制——representation learning(表征学习)。

04、两种研究路径:Scaling Law与机制理解

田渊栋揭秘AI大模型“顿悟”机制:从记忆到泛化的数学路径 Grokking 大模型 AI学习 机制理解 第2张

05、Grokking:从记忆跃迁到泛化的数学机制

06、从黑盒试验到机制理解

07、从压缩性走向解释力:泛化的终极价值

"(以下段落继续包含改写后的内容...)"