当前位置:首页 > 科技资讯 > 正文

图灵奖得主Richard Sutton:大语言模型是死胡同,经验学习才是智能基石

图灵奖得主Richard Sutton:大语言模型是死胡同,经验学习才是智能基石 强化学习  大语言模型 人工智能 经验学习 第1张

在近期的一次深度访谈中,强化学习领域的奠基人、图灵奖获得者Richard Sutton发表了引人深思的观点:大语言模型(LLM)是一个错误的起点,甚至可能是一条走向死胡同的道路。

Sutton强调,真正的智能源自于从经验中学习,即通过行动、观察反馈并持续调整行为以实现目标;相比之下,大语言模型的预测能力更多是对人类行为的模仿,它缺乏独立的目标,也无法对外部世界的变化产生真正意义上的惊讶和适应性调整。

他认为,要实现可扩展的智能,必须从经验学习出发,而不是以大语言模型为基础

这一犀利观点在当前大模型热潮中如同一剂清醒剂,促使我们从对模型“能力”的狂欢中跳脱出来,重新审视“智能”的本质与基础。

此次Sutton与科技博主Dwarkesh Patel的对话充满了观点碰撞,涵盖以下7个核心部分:

  1. 大语言模型(LLMs)是否是死胡同?
  2. 人类是否进行模仿学习?
  3. 经验时代的重要性
  4. 现有架构在分布外泛化能力上的不足
  5. AI领域的惊喜与突破
  6. “苦涩的教训”在AGI之后是否依然适用?
  7. AI技术的未来接替

图灵奖得主Richard Sutton:大语言模型是死胡同,经验学习才是智能基石 强化学习  大语言模型 人工智能 经验学习 第2张

学术头条节选了该访谈的第一部分内容「Are LLMs a dead end?」,在不改变原意的前提下做了编辑。如下:

Dwarkesh Patel:Richard Sutton是强化学习的奠基人之一,发明了时序差分学习等关键技术,并因此荣获图灵奖。Richard,恭喜您。

Richard Sutton:谢谢。

Dwarkesh Patel:我的第一个问题是:我们从大语言模型(LLM)角度思考AI,那么从强化学习(RL)视角看,我们可能忽略了什么?

Richard Sutton:这是截然不同的视角。两者易被割裂,失去对话。大语言模型如今很火,但领域易被潮流带偏,忽视根本问题。我认为强化学习才是真正的AI基础。

智能是什么?归根结底是对世界的理解。强化学习关注理解世界,而大语言模型更多在模仿人类,按指令行事,并非思考“应该做什么”。

Dwarkesh Patel:有人认为,模仿海量文本token需先建立世界模型,这些模型似乎展现了强大世界建模能力,是目前最好的世界模型,您认为缺什么?

Richard Sutton:我不同意。模仿人类语言不等于建立世界模型,那只是在模仿拥有世界模型的人类。真正世界模型应能预测未来发生什么。大语言模型能预测人说什么,但无法预测世界事件。

借用Alan Turing的话,我们想要能从经验学习的机器。“经验”是实际遭遇:采取行动,观察结果,从中学习。大语言模型学的却是给定情境下人类会怎么做,隐含建议你照做。

Dwarkesh Patel:有人认爲模仿学习可提供先验知识,让模型在进入“经验时代”前具备解决问题能力,后续经验学习可基于此。您认同吗?

Richard Sutton:不。先验需基于真实事物。实际知识是什么?大语言模型中没有定义。什么让动作变好?持续学习才关键,需在与世界交互中不断学习,并有方式判断对错。

在大语言模型设置中,有判断正确表达的方式吗?没有,因为无正确表达定义。它们无目标,所以话语无对错,无ground truth。无ground truth,就无先验知识,因先验应关于真相提示。

在强化学习中,正确的事是能获奖励的事。我们有定义,可预先掌握或验证。例如建世界模型,预测并观察结果,有ground truth。但大语言模型无此,无法预测真实发生什么。

Dwarkesh Patel:它们可预测用户回应,如直接问“你预计用户回应什么?”。

Richard Sutton:不,那只是回答问题,非有意义的预测。它们不会对结果惊讶,即使事实不符也不会调整。要学习,必须做出改变。

Dwarkesh Patel:在上下文中有灵活性,如模型用“思维链”解决数学问题,会自我纠正。您是否认爲需扩展此能力?

Richard Sutton:我说它们无法做有意义预测,不会对后续意外,也不会根据事态调整。

Dwarkesh Patel:下一个token预测不就是预测并更新吗?

Richard Sutton:不一样。下一个token预测是输出动作,非对外部世界的预测。关键在缺乏目标。智能本质是拥有目标;能实现目标的系统才智能。大语言模型无目标。

Dwarkesh Patel:它们有目标,如下一个token预测。

Richard Sutton:那不是目标,不能改变世界。预测token本身不影响token。

Dwarkesh Patel:同意,那不是关于外部世界的目标。

Richard Sutton:所以非实质性目标。静静预测并因准确满足的系统不算有目标。

Dwarkesh Patel:爲何在大语言模型上做强化学习不可行?它们已能解决复杂数学问题,如在IMO夺金,追求“正确解题”目标。能否扩展到他领域?

Richard Sutton:数学问题不同。建物理世界模型需通过交互从结果反馈学习,数学更偏计算和规划,目标清晰如找到证明,它们被赋予此目标。

Dwarkesh Patel:您在2019年写《惨痛的教训》,人们现将其作扩大大语言模型规模的依据,视爲可扩展方案。有趣的是,您认爲大语言模型未真正吸取“苦涩的教训”。

Richard Sutton:大语言模型是否“苦涩的教训”案例?它们利用大规模计算,随互联网数据扩展,但也融入大量人类知识。这值得探讨——涉及社会学和产业未来。它们会否触及数据极限,最终被仅从经验学习、能获更多数据的新事物取代?

在某些方面,这是“苦涩的教训”案例。我们输入人类知识越多,它们表现越好。但我期望出现从经验学习的系统,表现更好、更可扩展。那时,人类知识驱动系统将被纯粹经验与计算训练系统取代——又成“苦涩的教训”例证。

Dwarkesh Patel:这似非核心分歧。那些人认爲未来绝大多数计算来自经验学习,但基础架构起点将是大语言模型。我不明白爲何这是错误起点,需全新架构开始经验学习?爲何不能从大语言模型开始?

Richard Sutton:在每个“苦涩的教训”案例中,你可先从人类知识入手,再做可扩展事。理论上不错,但实践中常行不通,因人们易困在人类知识驱动方法,难跳出。最终,这些方法总被真正可扩展途径超越。

Dwarkesh Patel:真正可扩展的方法是什黱?

Richard Sutton:就是从经验中学习。尝试各种做法,观察哪些有效。不需有人告诉。前提是有目标,无目标就无对错或好坏,而大语言模型试图在没有目标或优劣判断下运作。这就是错误起点。