当前位置：首页 > 科技资讯 > 正文

图灵奖得主Richard Sutton：大语言模型是死胡同，经验学习才是智能基石

主机测评网
科技资讯
2026-01-04
637

图灵奖得主Richard Sutton：大语言模型是死胡同，经验学习才是智能基石强化学习大语言模型人工智能经验学习第1张

在近期的一次深度访谈中，强化学习领域的奠基人、图灵奖获得者Richard Sutton发表了引人深思的观点：大语言模型（LLM）是一个错误的起点，甚至可能是一条走向死胡同的道路。

Sutton强调，真正的智能源自于从经验中学习，即通过行动、观察反馈并持续调整行为以实现目标；相比之下，大语言模型的预测能力更多是对人类行为的模仿，它缺乏独立的目标，也无法对外部世界的变化产生真正意义上的惊讶和适应性调整。

他认为，要实现可扩展的智能，必须从经验学习出发，而不是以大语言模型为基础。

这一犀利观点在当前大模型热潮中如同一剂清醒剂，促使我们从对模型“能力”的狂欢中跳脱出来，重新审视“智能”的本质与基础。

此次Sutton与科技博主Dwarkesh Patel的对话充满了观点碰撞，涵盖以下7个核心部分：

大语言模型（LLMs）是否是死胡同？
人类是否进行模仿学习？
经验时代的重要性
现有架构在分布外泛化能力上的不足
AI领域的惊喜与突破
“苦涩的教训”在AGI之后是否依然适用？
AI技术的未来接替

图灵奖得主Richard Sutton：大语言模型是死胡同，经验学习才是智能基石强化学习大语言模型人工智能经验学习第2张

完

学术头条节选了该访谈的第一部分内容「Are LLMs a dead end?」，在不改变原意的前提下做了编辑。如下：

Dwarkesh Patel：Richard Sutton是强化学习的奠基人之一，发明了时序差分学习等关键技术，并因此荣获图灵奖。Richard，恭喜您。

Richard Sutton：谢谢。

Dwarkesh Patel：我的第一个问题是：我们从大语言模型（LLM）角度思考AI，那么从强化学习（RL）视角看，我们可能忽略了什么？

Richard Sutton：这是截然不同的视角。两者易被割裂，失去对话。大语言模型如今很火，但领域易被潮流带偏，忽视根本问题。我认为强化学习才是真正的AI基础。

智能是什么？归根结底是对世界的理解。强化学习关注理解世界，而大语言模型更多在模仿人类，按指令行事，并非思考“应该做什么”。

Dwarkesh Patel：有人认为，模仿海量文本token需先建立世界模型，这些模型似乎展现了强大世界建模能力，是目前最好的世界模型，您认为缺什么？

Richard Sutton：我不同意。模仿人类语言不等于建立世界模型，那只是在模仿拥有世界模型的人类。真正世界模型应能预测未来发生什么。大语言模型能预测人说什么，但无法预测世界事件。

借用Alan Turing的话，我们想要能从经验学习的机器。“经验”是实际遭遇：采取行动，观察结果，从中学习。大语言模型学的却是给定情境下人类会怎么做，隐含建议你照做。

Dwarkesh Patel：有人认爲模仿学习可提供先验知识，让模型在进入“经验时代”前具备解决问题能力，后续经验学习可基于此。您认同吗？

Richard Sutton：不。先验需基于真实事物。实际知识是什么？大语言模型中没有定义。什么让动作变好？持续学习才关键，需在与世界交互中不断学习，并有方式判断对错。

在大语言模型设置中，有判断正确表达的方式吗？没有，因为无正确表达定义。它们无目标，所以话语无对错，无ground truth。无ground truth，就无先验知识，因先验应关于真相提示。

在强化学习中，正确的事是能获奖励的事。我们有定义，可预先掌握或验证。例如建世界模型，预测并观察结果，有ground truth。但大语言模型无此，无法预测真实发生什么。

Dwarkesh Patel：它们可预测用户回应，如直接问“你预计用户回应什么？”。

Richard Sutton：不，那只是回答问题，非有意义的预测。它们不会对结果惊讶，即使事实不符也不会调整。要学习，必须做出改变。

Dwarkesh Patel：在上下文中有灵活性，如模型用“思维链”解决数学问题，会自我纠正。您是否认爲需扩展此能力？

Richard Sutton：我说它们无法做有意义预测，不会对后续意外，也不会根据事态调整。

Dwarkesh Patel：下一个token预测不就是预测并更新吗？

Richard Sutton：不一样。下一个token预测是输出动作，非对外部世界的预测。关键在缺乏目标。智能本质是拥有目标；能实现目标的系统才智能。大语言模型无目标。

Dwarkesh Patel：它们有目标，如下一个token预测。

Richard Sutton：那不是目标，不能改变世界。预测token本身不影响token。

Dwarkesh Patel：同意，那不是关于外部世界的目标。

Richard Sutton：所以非实质性目标。静静预测并因准确满足的系统不算有目标。

Dwarkesh Patel：爲何在大语言模型上做强化学习不可行？它们已能解决复杂数学问题，如在IMO夺金，追求“正确解题”目标。能否扩展到他领域？

Richard Sutton：数学问题不同。建物理世界模型需通过交互从结果反馈学习，数学更偏计算和规划，目标清晰如找到证明，它们被赋予此目标。

Dwarkesh Patel：您在2019年写《惨痛的教训》，人们现将其作扩大大语言模型规模的依据，视爲可扩展方案。有趣的是，您认爲大语言模型未真正吸取“苦涩的教训”。

Richard Sutton：大语言模型是否“苦涩的教训”案例？它们利用大规模计算，随互联网数据扩展，但也融入大量人类知识。这值得探讨——涉及社会学和产业未来。它们会否触及数据极限，最终被仅从经验学习、能获更多数据的新事物取代？

在某些方面，这是“苦涩的教训”案例。我们输入人类知识越多，它们表现越好。但我期望出现从经验学习的系统，表现更好、更可扩展。那时，人类知识驱动系统将被纯粹经验与计算训练系统取代——又成“苦涩的教训”例证。

Dwarkesh Patel：这似非核心分歧。那些人认爲未来绝大多数计算来自经验学习，但基础架构起点将是大语言模型。我不明白爲何这是错误起点，需全新架构开始经验学习？爲何不能从大语言模型开始？

Richard Sutton：在每个“苦涩的教训”案例中，你可先从人类知识入手，再做可扩展事。理论上不错，但实践中常行不通，因人们易困在人类知识驱动方法，难跳出。最终，这些方法总被真正可扩展途径超越。

Dwarkesh Patel：真正可扩展的方法是什黱？

Richard Sutton：就是从经验中学习。尝试各种做法，观察哪些有效。不需有人告诉。前提是有目标，无目标就无对错或好坏，而大语言模型试图在没有目标或优劣判断下运作。这就是错误起点。

阿里云服务器免费vps

本文由主机测评网于2026-01-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114863.html

图灵奖得主Richard Sutton：大语言模型是死胡同，经验学习才是智能基石

Linux无文件木马rootdown制作全攻略

MiniMax版权诉讼风波：AI创新与合规的双重博弈

图灵奖得主Richard Sutton：大语言模型是死胡同，经验学习才是智能基石

Linux无文件木马rootdown制作全攻略

MiniMax版权诉讼风波：AI创新与合规的双重博弈

相关文章