Ilya Sutskever重磅访谈完整版放出!长达1个半小时,全文近2万字,他抛出惊人论断:Scaling时代已画上句号,我们正步入研究驱动的新纪元。
Scaling时代正式终结!
只要Ilya Sutskever现身,必有金句引爆全场。还记得在NeurIPS 2024大会上,他曾向全球宣布:「预训练时代已经走到尽头」。
这一次,Ilya面对镜头平静地说出这句话时,整个AI界瞬间屏息——
我们已从追求规模扩张的时代,跨入了以研究为核心的崭新阶段。
在与著名主持人Dwarkesh Patel的深度对话中,Ilya几乎将当前AI研究领域最刺痛人心的真相一一揭开:
不仅仅是预训练,就连备受追捧的Scaling Law,也被他判了「缓刑」——这条路虽然还能继续走下去,但绝对无法通向AGI!
他还强调,当今的模型尽管强大,但其泛化能力远远配不上庞大的参数量和耀眼的Benchmark分数,甚至远不及人类的表现。
最关键的是,Ilya已经对技术缺失的关键环节形成了清晰的思路,但他选择暂时不公开更多细节。
这场长达90分钟的对谈,Ilya还深入探讨了SSI战略、AI模型泛化能力提升的关键,以及AGI未来的发展路线图。
核心亮点速览:
当前技术路线后劲明显不足——模型虽持续改进,但无法触及AGI的本质
真正可行的系统架构,我们至今尚未掌握构建方法
核心瓶颈在于泛化能力,而模型在这方面远逊于人类
即便用所有编程竞赛题目训练模型,它仍无法形成真正的「解题直觉」
评估分数光鲜亮丽,但实际性能滞后——RL训练最终演变为对评估指标的过度优化
真正的奖励机制黑客,其实是设计这些基准测试和研究循环的科研人员
ASI(人工超级智能)可能在5到20年内降临
这场对话,注定将成为这一年乃至更远未来的序章。
访谈伊始,Ilya Sutskever便感慨道,「想到这一切竟然成真,真的有点疯狂」!
身处湾区,经常会听到「拿出美国1% GDP投入AI」、「某某公司又砸下xx亿美元」这类疯狂的消息,简直就像是从科幻小说里走出来的情节。
奇怪的是,一切似乎又没有什么实质性的变化。
AI模型在智力层面实现了飞跃,但它们对实体经济的渗透却慢如蜗牛。
Ilya坦言,这正是当前AI最令人困惑、最矛盾的地方之一:
在各种基准测试中,AI模型的性能表现几乎「超乎想象」,但在真实世界里,它却常常犯一些让人啼笑皆非的错误。
假设你用vibe coding写代码,出现bug→模型修bug→引入第二个bug→指出第二个bug→模型修第二个bug→又把第一个bug带了回来。
至少人类在写代码时,知道避免重复犯同样的错误,但LLM仿佛在两个bug之间来回「跳房子」。
为什么会这样?这种现象背后最深层的根源,究竟是什么?
对此,Ilya给出了两种解释——
1. RL训练会让模型的目标变得单一、狭隘,在某种程度上削弱了其全局感知能力,但又有时在其他方面增强了其「察觉」的能力。
也正因为如此,它们反而做不好一些很基础的事情。
2. 预训练会用到「全部数据」,而RL则讲究定向优化,精确界定为达成的目标使用特定数据。
也就是说,可设计的RL环境自由度很大,便会产生一种倾向:开发者不自觉地「从各种评测中获取灵感」。
再结合当前LLM泛化能力仍不充分这一事实,很可能解释为何「评测结果与现实应用」之间会出现明显鸿沟。
说了这么多,Ilya的核心观点就是——
真正钻测评空子的不是模型本身,而是设计基准和RL环境的人类研究者。
结果就是,训练出的AI在参加竞赛题训练营方面无人能敌,但没有学会如何在陌生场景下举一反三。
他举例道,就好比两位学生,学生A把历史上所有竞赛编程题刷了一万个小时,成为超强的「竞赛程序员」。
而学生B也许只练了400个小时,但有真正的悟性、直觉、判断力,成绩也不错。
毋庸置疑,学生B将在未来的职业生涯中发展得更好。这从侧面印证了,预训练和「天赋」之间存在着巨大差异。
当主持人Dwarkesh问道,或许你在暗示,预训练本身没有那么强的泛化能力,之所以有效,是因为用到了海量数据,但不见得比RL泛化得好?
Ilya认为预训练的主要优势有两个:第一,数据量大;第二,无需刻意挑选,具有天然的高度「真实性」。
那么,人类的「天赋」究竟是什么?为什么比模型的泛化能力更强?
在对话中,有一段核心观点非常发人深省——
人类的学习能力,不仅仅来自经验积累,还来自进化过程中硬编码的「价值函数」。
Ilya表示,科学家们曾发现,一个因脑损伤而失去情绪能力的人,智力、语言、逻辑都没变,却变得极其不会做决定。
甚至,连穿袜子都要犹豫半天。
也就是说,情绪并不是「多余的噪音」,而是决策系统不可或缺的一部分。
这让我们不得不重新思考:人类与生俱来的情绪,在多大程度上帮助我们在世界中成为一个「能正常运作的智能体」?
情绪,本质上就是一种「价值函数」。
它会告诉你「这条路可以走」、「那条路很危险」、「这个方向不靠谱」……
反观今天的AI,虽然有类似的价值函数训练方式,比如模型打分器,但比较脆弱、粗糙,并非内置。
这就解释了,「情绪价值函数」之于预训练的重要性。
那么,预训练遭遇了瓶颈,Scaling Law又将何去何从?
一直以来,人们都在说数据要Scaling、参数要Scaling、算力要Scaling,还有哪些维度可以Scaling?
Ilya表示,预训练最大的突破,就是让人们意识到:这套Scaling「配方」真的有效。
现在,X上许多人都在讨论:Gemini好像找到了某种方式,可以从预训练中榨出更多的东西。
但是,在某个节点上,预训练终究会把数据用光的,数据显然是有限的。
或者可以这样理解:从2012年到2020年,是「研究的时代」;然后从2020年到2025年,是「Scaling的时代」。
但现在算力已经非常庞大,电脑已经极其强大,从某种意义上说,我们又回到了「研究的时代」。
我们已经见证了一种Scaling方式的转换——从预训练的Scaling,切换到了RL的Scaling。
但是,RL非常消耗算力,而且现有做法效率低下。
不过Ilya再次提到,Scaling价值函数,可以让AI以更像人类的方式学习。
也就是,为模型内置类似人类的判断直觉、稳定的价值感受器,让其在任务过程中能「自我评分」,这样才能学得更快。
Ilya指出,Scaling时代的一个后果是——scaling把屋子里的空气都吸干了,大家就开始都做同一件事。
于是,我们来到了这样一个世界:公司的数量远远多于有价值的想法,而且是远远多于。
Scaling时代,让大家都在做一样的事:大模型、更大模型,再大一点的模型。
但随着Scaling天花板临近,瓶颈变成了创意本身。
未来,我们将回归那种——小而美的实验带来巨大突破,大量新奇的想法涌现,以及不依赖超级算力的创新。
就像AlexNet当时仅用两张GPU训练出来,Transformer用8到64块GPU做出,包括ResNet同样如此。
也许下一次重大范式转变,也将源自一套「看起来不够大」的实验。
Dwarkesh Patel更加担忧ASI的风险——
超级智能的危害似乎不仅仅会表现为恶意的「回形针制造机」。
他认为,ASI极其强大,我们甚至不知道该如何概念化人们会如何与它互动,以及人们会用它来做什么。所以,逐步开放使用权限,似乎是一种更好的方式,可以分散其冲击力,并帮助人们做好准备。
关于这一点,Ilya认为即使在最顺利的发展路径中,你仍然会逐步发布它。渐进主义将是任何计划与生俱来的组成部分。
问题只在于你首先发布的是什么。这是第一点。
第二,持续学习,确实是重要且正确的。原因如下。
他举了一个例子说明语言如何影响思维。
这次,有两个词塑造了所有人的思维方式。第一个词:AGI(通用人工智能)。第二个词:预训练。
为什么「AGI」这个词会存在?这是一个非常特殊的术语。它的存在是有原因的。
在Ilya看来,「AGI」这个词存在的理由,并不主要是因为它是一个描述某种智能终极状态的重要且本质的描述符,而是因为它是对另一个已存在术语的反应,那个术语就是「狭义AI」。
如果你回溯到游戏AI的远古历史,比如跳棋AI、国际象棋AI、电脑游戏AI,每个人都会说,看这种狭窄的智能。当然,国际象棋AI能打败卡斯帕罗夫,但它别的什么也做不了。
它太狭隘了,是狭义的人工智能。因此,作为对此的回应,一些人说,这样不好。它太狭隘了。我们需要的是通用AI,一个能做所有事情的AI。这个词就获得了很大的关注度。
第二个获得极大关注的词是「预训练」,特别是预训练的配方。
他认为人们现在做强化学习的方式,或许正在消除「预训练」这个概念留下的烙印。
但预训练有这样一个特性:你做更多的预训练,模型在所有方面都会变得更好,或多或少是均匀地提升。预训练带来AGI。
但AGI和预训练带来的问题是,从某种意义上说,它们有些「矫枉过正」了。
如果在预训练的语境下,思考「AGI」这个词,你会意识到:人类其实并不是AGI。
是的,人类确实具备基础技能,但人类先天缺失海量的知识。相反,我们依赖的是持续学习。
所以当你设想:「好吧,假设我们成功造出了某种安全的超级智能。」
问题在于,你如何定义它?它处于持续学习曲线的哪个阶段?
人类好比造出了一个超级聪明的15岁少年,跃跃欲试。他懂的并不多,但他是个好学生,求知若渴。你可以对他说:「去当个程序员,去当个医生,去学习吧。」
因此,你可以想象,部署本身将包含一个通过试错来学习的时期。这是一个过程,而不是直接投放一个「最终成品」。
Ilya的意思是,超级智能并不是某种「完成形态」的心智,不需要一上来就懂得如何从事经济活动中的每一项工作。因为按照OpenAI最初的章程或其他类似的定义,AGI似乎被定义为能够胜任每一项工作、能做人类能做的每一件事。
而Ilya提出的是一种能够学会做每一项工作的心智,这才是超级智能。
一旦拥有了这种学习算法,它就会被部署到现实世界中,类似于人类劳动力进入一家组织。
Ilya认为,如果实现这种算法,很可能会迎来一波快速的经济增长。
这种局面其实非常危险。
从理论上说,我们知道它是可能实现的。只要有一个系统,它的学习能力与人类相当,但还能把多个「个体大脑」合并在一起,而这种能力是人类不具备的。那么,从物理角度来看,这样的系统是完全有可能存在的。
人类可以存在,数字计算机也可以存在,只要把这两者结合起来,这样的东西就能被造出来。
而它的威力也将是巨大的。比如你在SSI招一个人,大概六个月他就能开始「净贡献」了。人类已经学习得很快了,而这种AI的进步速度只会更快。
那你如何确保这个发展过程是良性的?SSI在这方面的优势是什么?换句话说,SSI到底有什么计划去应对这种局面?
Ilya认为实际情况是,在实践中很难「切身感知」到 AGI(通用人工智能)。
我们可以谈论它,但试想一下,当你并未年老体衰时,去谈论变老和虚弱的感觉。你可以对话,你可以试着想象,但这很难,你终究会回到现实,发现自己并非如此。
他认为围绕AGI及其未来力量的许多问题,都源于它很难被想象。
实际上,AI和AGI的本质区别是什么?就是力量(power)。整个区别就在于力量。
当力量真的很大时,会发生什么?在过去一年里,Ilya改变了一点想法——
如果很难想象,你该怎么办?你必须展示它。
他坚持认为,大多数从事AI工作的人也无法想象AGI,因为它与人们日常所见迥然不同。
他坚持认为,随着AI变得越来越强大,人们会改变行为。
我们将看到各种前所未有的事情发生,而这些现在还没有发生。举几个例子。
无论是好是坏,前沿AI公司将在未来的发展中扮演非常重要的角色,政府也是如此。
将来,竞争激烈的公司开始在AI安全方面进行合作。OpenAI和Anthropic迈出了第一小步,但这在以前是不存在的。
大约三年前,Ilya在一次演讲中就预测过的,这种事情将会发生。他还坚持认为,随着AI继续肉眼可见地更强大,政府和公众也会产生做点什么的愿望。「展示AI」是一股非常重要的力量。
Ilya还坚信,目前AI从业者之所以感觉不到AI的强大,是因为AI还会犯错。
他确信,在某个时刻,AI实际上会开始让人感到强大。当那一刻来临时,我们将看到对待安全的方式,所有AI公司都发生巨大变化。他们会变得更加充满危机感(paranoid)。
这是一个预测,但大家会看到它发生。
还有第三件事——
一直以来,大家都入坑了「自我进化AI」(self-improving AI)。
为什么会这样?因为想法比公司少。
但Ilya坚信,有一种更好的东西值得构建,而且每个人都会想要它。
那就是一个被稳健对齐(robustly aligned)、专门关爱「有感知能力的生命」(sentient life)的AI。
他特别有理由相信,构建一个关爱有感知生命的 AI,比构建一个仅关爱人类生命的 AI 要容易。
因为AI本身也将是有感知的。如果你考虑到镜像神经元和人类对动物的同理心——
你可能会争辩说这种同理心还不够强,但它确实存在。
他认为这是一种涌现属性,源于这样一个事实:我们使用模拟自己的同一套神经回路去模拟他人,因为那是最高效的方式。
Ilya预测,大概5到20年能够像人类一样学习并因此随后变得超越人类AI系统就会出现。
参考资料:
https://www.dwarkesh.com/p/ilya-sutskever-2
https://www.youtube.com/watch?v=aR20FWCCjAs
本文由主机测评网于2026-02-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260226209.html