AI的过目不忘反成累赘,强化学习方法低效荒唐,编程助手让代码混乱不堪,通用人工智能仍需十年等待……
据智东西10月21日消息,近日,前特斯拉AI主管、OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)进行了一场长达2.5小时的深度对话,系统分享了他对人工智能现状与未来的核心见解,其观点挑战了许多主流认知,极具启发性。
当行业普遍聚焦“智能体之年”时,Karpathy却冷静提出,这应是“智能体的十年”。他强调,要开发出能像可靠实习生一样工作的AI智能体,仍需突破多模态感知、持续学习、计算机使用等关键瓶颈,这大约需要十年时间。
Karpathy以近期开源项目nanochat为例,揭示了大语言模型存在的“认知短板”。在需要精细架构的创新编程任务中,AI助手因过度依赖训练数据中的常见模式,反而误解定制化代码、引入不必要复杂度,最终“让代码库膨胀,变得一团糟”。
对于推动大模型迭代的主流方法——强化学习,Karpathy的批评尤为尖锐。他比喻道,这种方法本质是“用吸管汲取监督信号”,即将最终结果的单一信号艰难分摊到整个复杂行动链中,他认为这效率低下且不合理。
通过对比人类学习方式,Karpathy指出当前大模型训练的两大缺陷:“模型坍缩/模型崩溃(model collapse)”导致生成内容多样性衰减,以及“过度记忆”阻碍了其像人类一样发现通用模式。
这形成一个恶性循环:用模型生成的数据训练新模型,结果只会越来越局限。有趣的是,Karpathy认为,人类同样会“崩溃”并固守陈规,而大脑可能通过“做梦”引入随机性(熵)来对抗这一趋势。
在衡量AI进展时,Karpathy主张应更关注其在具体经济任务中的实际表现,而非抽象指标。他预测,AGI对宏观经济增长的推动将是缓慢持续的,会像计算机、手机等技术一样,逐步融入并延续原有约2%的GDP增长轨迹。
尽管前路漫长,Karpathy却坚信我们早已处于“智能爆炸”进程中。他从更宏大视角阐述:从历史尺度看,这场变革犹如一场“烟花盛宴”,而我们正以慢动作见证其绽放。
该访谈内容在外网广泛传播,社交平台X上许多网友评价为“必看”、“每一分钟都价值连城”、“绝对值得一看”……这些颠覆性观点从何而来?又指向何方?智东西对2.5小时访谈的核心内容进行了不改变原意的编辑。
当业内热议“智能体之年”时,Karpathy却提出这是“智能体的十年”。那么是什么瓶颈需要去攻克十年?
主要对话内容如下:
Dwarkesh Patel:Andrej,为什么你说这是智能体的十年,而不是一个智能体年?
Andrej Karpathy:这是对先前一句名言的回应,我不确定出处,他们暗示就大语言模型及其未来发展而言,现在是智能体的十年。这句话触动我,是因为行业存在一些过度乐观的预测。
一些早期智能体令人印象深刻,如Claude和Codex等已被广泛采用,但我仍觉得还有许多工作要做,我们将与这些工具协作长达十年。
Dwarkesh Patel:您认为哪些方面需要十年才能实现?瓶颈是什么?
Andrej Karpathy:真正让智能体发挥作用。我们常将智能体视为雇佣的员工或实习生,但目前它们显然做不到,原因是它们根本不行——智能不足,缺乏多模态能力,无法有效使用计算机,没有持续学习机制等。它们的认知能力有限,因此不实用,解决所有这些问题大概需要十年。
Dwarkesh Patel:为什么是10年,而不是1年或50年?
Andrej Karpathy:这涉及我个人直觉,也是基于我在该领域经验的推断。我涉足AI领域近二十年,不算太长。既有经历让我认为当前问题可解决,但难度不小。综合权衡,我感觉大约需要十年才能攻克。
10月14日,Karpathy开源nanochat,宣称能以不到100美元(约合人民币711.5元)训练出“简易版ChatGPT”,一经发布在GitHub上就获5.6k星。
但在构建nanochat代码库时,Karpathy发现当前AI编程助手存在明显局限,几乎无帮助,这是为什么?
主要对话内容如下:
Dwarkesh Patel:你在推特上谈到编程模型对你构建(nanochat)代码库几乎没有帮助,为什么?
Andrej Karpathy:我花了约一月时间搭建这个代码库。我认为当前人们与代码的交互方式主要分三类:完全拒绝大语言模型、使用模型的自动完成功能辅助编写(我现阶段做法),以及氛围编程。我在特定场景使用它们。但这些是工具,必须了解其擅长点、短板及适用时机。
nanochat不是合适场景,因它是一个相当独特的代码库。它几乎是智力密集型代码,所有部分都需精确编写。这些编程模型存在许多认知缺陷。例如,他们常误解代码,因为他们记忆了太多互联网上的典型做法,而我并未采用这些方式。
Dwarkesh Patel:能举例吗?
Andrej Karpathy:我使用八块GPU,均进行前向和后向计算。在它们间同步梯度的方法是用PyTorch的分布式数据并行容器,当进行后向计算时,它会自动通信和同步梯度。我认为无需DDP容器,将其舍弃,但编程模型试图让我使用DDP容器,还一直干扰代码风格。
他们防御性过强,一直试图构建生产代码库,而我不需要这些额外内容。所以我觉得他们让代码库膨胀,增加了复杂性,他们不断误解,还大量使用弃用API。这简直是一团糟,根本无帮助。
强化学习是当下大模型迭代的主流方法,然而Karpathy犀利指出,这种方法本质是在“用吸管吸监督信号”——将单一结果信号艰难分摊到整个复杂行动过程中,既低效又荒谬,与人类通过精细复盘的学习方式截然不同。
主要对话内容如下:
Dwarkesh Patel:来聊聊强化学习,如何理解人类仅通过与环境的互动就能构建丰富世界模型,且几乎与场景结束时的奖励无关?
Andrej Karpathy:人类不使用强化学习。强化学习比想象中更糟,当然其他方法更差。在强化学习中,它几乎假设你得出正确答案的每个小细节都正确,但这非事实。你可能在找到正确答案前,一直在错误路径上。你做的每个错误,只要最终得到正确答案,都会被加权为“继续这样做”。这很糟糕,它就是噪声。
你做大量工作,最后只得到一个数字。基于这个数字,你会加权或减权整个轨迹。我喜欢这样说,你就像在“用吸管汲取监督信号”。你做这么多工作,原本可能一分钟完成,但现在却将最终奖励信号的监督信息一点点吸入,传播到整个轨迹,用它加权或减权轨迹。
这简直愚蠢又疯狂。人类永远不会这样做。
首先,人类永远不会进行数百次部署;其次,当一个人找到解决方案时,他们会经历相当精细的复盘过程:“好吧,我觉得这些部分做得好,这些部分不好。我应该这样做或那样做。”他们会仔细思考,目前的大模型训练中没有类似机制。但我看到一些论文试图这样做。
Dwarkesh Patel:既然这一点显而易见,那么为什么基于过程的监督作为替代方案,却未能成功提升模型能力?是什么阻碍我们使用这种替代范式?
Andrej Karpathy:基于过程的监督指我们不会在最后才设奖励机制。你完成10分钟工作后,我不会告诉你好坏。我会在每一步都告诉你做得如何。我们没这样做的原因是,如何正确执行很棘手。你只有部分解决方案,却不知如何分配功劳。
事实上,无论何时你用大语言模型分配奖励,这些拥有数十亿参数的庞然大物很容易被玩弄。如果你对它们进行强化学习,几乎肯定会找到对抗样本作为模型评判标准。所以你不能这样做太久。你可能只进行10步或20步,也许会成功,但不可能进行100步或1000步。它会在这个巨型模型的每个角落找到所有这些虚假内容,并找到欺骗方法。
与人类学习方式类比,Karpathy谈及了大模型学习的两个重要缺陷。
一是模型坍缩问题。当前AI仅被动预测数据,缺乏人类式主动思考,导致其生成内容多样性枯竭,即出现隐性坍缩。
二是过度记忆问题。人类因不完美记忆而擅长发现通用模式;AI则困于精确记忆,弱于泛化。Karpathy认为,增强AI思考能力需平衡记忆与算法,此为核心挑战。
主要对话内容如下:
Dwarkesh Patel:在机器学习领域,与人类白日梦、睡眠或单纯反思相对应的概念是什么?
Andrej Karpathy:的确,我们在这方面遗漏了关键维度。以读书为例。目前大型语言模型的“读书”只是被动预测下一个词,并从中汲取知识。但这非人类学习方式——书籍对我们而言,更像是一组激发思考、讨论与内化的“提示词”。人类通过这种主动加工来真正掌握知识,而AI完全缺乏这一机制。我期望未来能让模型在预训练中融入对材料的深度反思与消化环节,但这仍是待解的研究课题。
这并非易事,举个例子,我们为什么不用合成数据训练模型?核心问题在于模型生成的样本存在“隐性坍缩(silently collapsed)”——单看样本无明显异常,但实则仅覆盖极小的内容思考范围,数据分布过于局限(比如ChatGPT只会讲几个笑话)。这类样本缺乏人类内容的丰富性、多样性与高熵值,难以支撑有效训练。如何在避免坍缩的同时维持熵值,让合成数据发挥作用,仍是未解决的研究课题。
我认为这个问题可能没有根本解决方案。我还认为人类会随时间推移而坍缩,或者说会崩溃。这就是为什么孩子们还没有过度适应,他们会说一些让你震惊的话,因为他们还没有崩溃,但我们已经崩溃了。我们最终会重复同样想法,会说越来越多同样的话,学习率就会下降,崩溃持续恶化,然后一切都会恶化。
Dwarkesh Patel:你看过这篇超级有趣的论文吗?它说做梦是防止这种过度拟合和崩溃的一种方式。它能让你置身于与日常现实截然不同的奇特情境中,从而防止这种过度拟合。
Andrej Karpathy:这是一个有趣想法。我认为当你在脑海中生成事物并加以处理时,你是在用自己的样本进行训练,用合成数据进行训练。如果你这样做太久,就会偏离轨道,最终崩溃。生活中你总是需要寻找熵。与他人交谈是熵的重要来源,诸如此类。也许大脑也建立了一些内部机制来增加这一过程中的熵。这是一个有趣想法。
Dwarkesh Patel:有一个不成熟想法,记忆力极差、易遗忘的幼儿,反而擅长学习新语言和探索世界;大语言模型虽能精准复述信息,却难快速掌握抽象概念;成年人介于二者之间。这其中或许有值得探究的内容?
Andrej Karpathy:人类比大语言模型更容易“只见树木不见森林”。我们不那么擅长记忆,但这是一个特点而非缺点。
大语言模型的记忆力极强,它们被预训练文档的记忆所困扰,从某种意义上说,这可能非常分散它们的注意力。与大语言模型相比,人类不太擅长记忆,所以我们被迫在更普遍意义上寻找模式。这是人类的特性而非缺陷,因为它迫使你只学习可泛化的部分。
所以,当我谈到认知核心时,我希望大语言模型更少进行记忆,只需保留用于思考的算法、实验的想法以及所有这些用于行动的认知粘合剂。
Dwarkesh Patel:这也与防止模型崩溃(model collapse)有关吗?解决方案是什么?
Andrej Karpathy:我不确定,这大概是另一个分支。模型的记忆力太强,我们应该想办法把它去掉。人类的记忆力差得多,但这也是一件好事。
谈到解决方案,你可以想象对熵之类的东西进行正则化。我猜它们在经验上效果不佳,因为现在的模型已经坍缩。但我要说的是,我们想要的大多数任务实际上并不要求多样性,这或许就是问题的答案。
前沿实验室正努力让这些模型变得实用。我觉得输出结果的多样性并不重要……首先,处理和评估这些事情要困难得多,但这可能并不是捕捉大部分价值的关键。
人们提出了不同的AGI进展衡量标准。例如用“教育水平”类比:从高中生到博士生;或用“任务时长”衡量:从完成一分钟任务到一周任务。
但Karpathy对这些标准都不认同。他认为更应关注AI在具体经济任务中的实际表现,而非这些抽象指标。
主要对话内容如下:
Dwarkesh Patel:我们应该如何看待AI的进步?
Andrej Karpathy:我几乎想拒绝“如何衡量AGI进展”这个问题,因为AI只是计算的延伸。我坚持OpenAI最初的AGI定义:一个能完成任何具有经济价值、性能达到或超过人类水平的系统。人们在探讨进展时把实体工作(可能占经济总量超80%?)排除在外,这与最初的定义相比,是一个相当大的让步。即便只拿下剩下的“知识工作”市场,那也是一个价值数万亿美元的庞大市场。
按OpenAI的定义,AI进展其实有限。以放射科医生为例,预测其被取代是错误的,因为工作本身复杂。真正可能自动化的是如呼叫中心员工的工作——简单、重复、数字化。即便如此,我期待的也是“自主性滑块”:AI完成80%工作量,人类负责监督20%,管理不完善的AI。这将是渐进过程,而非取代。
Dwarkesh Patel:目前的模型更接近“编译器”工具而非人类“替代”。但如果真的出现AGI,它理应能胜任你的工作。要是能并行复制出上百万个“你”,你认为会极大加速AI的发展进程吗?是否会出现“智能爆炸”?
Andrej Karpathy:我认为会的,但这其实只是常规发展而已——因为我们早已身处智能爆炸之中,而且已经持续数十年了。本质上,GDP曲线就是工业领域诸多方面的指数加权总和,能直观反映这一点。
数百年来,所有事物都在逐步实现自动化:工业革命解决了物理层面的自动化,涉及机械组件、工具制造等领域;编译器则是早期的软件自动化产物,诸如此类。长期以来,我们一直在进行递归式的自我提升,处于智能爆炸的进程中。
换个角度看,若不考虑生物机制等因素,地球曾是个十分单调的地方,样貌几乎没什么变化。但从太空俯瞰就会发现,我们正处于一场“烟花盛宴”之中,只是我们是以慢动作在见证这一切。我坚信这种智能爆炸早已发生并持续了很久。
再说一次,在我看来,AI并非与长期以来的技术发展割裂的独特技术。
Dwarkesh Patel:你认为它与这种超指数增长趋势是一脉相承的?
Andrej Karpathy:没错。这也是我对这个话题很感兴趣的原因。我曾试图在GDP数据中找到AI的痕迹,本以为GDP会因此出现显著增长,但后来我研究了其他一些我认为具有变革性的技术,比如计算机、手机等,却发现也无法在GDP数据中看到它们的明显影响,GDP依然保持着原有的指数增长态势。
所有技术的影响都被分散开来,传播过程十分缓慢,最终都被平均到了那条不变的指数增长曲线中。计算机的情况也完全一样,你无法在GDP数据中找到“哦,我们现在有计算机了”这样的明显拐点,因为它的发展进程太过缓慢。
AI也会呈现出完全相同的态势。它本质上只是更多形式的自动化,一种新型计算机和新型计算系统,它存在诸多问题,其影响会随着时间慢慢扩散,最终也会融入那条既定的指数增长曲线。
这条指数曲线仍将持续攀升,变得愈发陡峭。生活在那样的环境中,将会是一种非常陌生的体验。
Dwarkesh Patel:你是说,从工业革命前到现在的趋势来看,呈现的是一种超指数增长。那如果把AI纳入这个趋势图,它会让增长率提升到20%甚至200%吗?还是说增长率始终保持不变,一直是2%?
Andrej Karpathy:增长率大致也保持稳定吧。
Dwarkesh Patel:只在过去两三百年里保持稳定而已。但纵观人类历史,增长率其实是爆发式增长的,从0%一路不断加速达到了2%的增长率。
Andrej Karpathy:我曾尝试在GDP曲线中寻找AI的影响痕迹,但我逐渐意识到这种思路是错误的。
在这一采访中,Karpathy还谈及了ASI(人工超级智能)、智能与文化的进化、自动驾驶发展、教育等具有实际意义的话题方向,比如他还提出“ASI可能会让人丧失对日益复杂的自动化系统的理解和掌控”,“未来智能体或许能演化出文化”、“要实现自动驾驶99%乃至99.9%的可靠性需要付出巨大的持久的努力”等。
在这场关于AI未来的深刻对话中,Karpathy既描绘了激动人心的技术远景,也毫不避讳地指出了当前的根本性瓶颈。这提醒我们,在技术狂热中保持清醒的认知,或许比盲目乐观更能推动真正的进步。通往AGI的道路没有捷径,唯有持续攻克那些“不性感”的基础问题,才能让这场变革真正到来。
了解访谈完整内容,地址如下:
https://www.dwarkesh.com/p/andrej-karpathy
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116825.html