当前位置:首页 > 科技资讯 > 正文

Andrej Karpathy深度访谈:AGI与智能体未来十年的演进路径

在近期的一次深度对话中,Andrej Karpathy全面剖析了通用人工智能、智能体以及AI领域未来十年的发展趋势。他强调,当前智能体技术仍处于萌芽期,强化学习尽管存在局限性,但却是现阶段最可行的解决方案。他推断,未来十年的AI框架很可能继续依赖类似Transformer的庞大神经网络结构。

在最新一期《Dwarkesh Podcast》节目中,Andrej Karpathy——这位OpenAI联合创始人、前特斯拉AI负责人、深度学习领域的权威专家,与主持人Dwarkesh Patel进行了长达两个多小时的深入交流。

Karpathy详尽阐述了他对AGI发展时间线、智能体技术、大模型认知边界以及强化学习等AI核心议题的独到见解。

Andrej Karpathy深度访谈:AGI与智能体未来十年的演进路径 AGI  智能体 强化学习 Transformer架构 第1张

Andrej Karpathy(左侧)与主持人Dwarkesh Patel(右侧)

通用人工智能仍需十年发展

对话从当前热门的“智能体”概念切入。

对于业界广泛宣扬的“智能体元年”,Karpathy持审慎态度。

他认为行业中存在一定程度的过度预期。更准确的描述应当是“智能体的十年”。

“尽管我日常使用一些卓越的智能体工具,如Claude和Codex,但它们仍属于非常初级的形态,还有大量基础性工作亟待完成,这正是未来十年我们需要持续探索的方向。”

Karpathy所指的“智能体的十年”,意味着这些智能体需经过约十年的持续研发,才能真正实现实用化。

他列举了当前智能体的主要短板:智能水平不足、多模态能力薄弱、无法自主操作计算机等。

在他看来,这根源在于智能体存在认知缺陷,且缺乏持续学习机制。这些根本性问题的解决,预计需要十年时间。

谈及广受关注的AGI何时实现,Karpathy给出的答案是十年。

这一判断基于他个人直觉以及在AI领域约十五年的从业经验。

在这十五年中,Karpathy亲历了AI行业的数次重大变革,并从中观察到某些规律性现象。

他看到人们曾多次过早追求完全成熟的智能体,而忽略了前期必需的基础工作:“当前智能体能力已大幅提升,但我们可能仍缺失技术栈的某些关键组成部分。”

Patel询问十年后AI核心架构是否仍会类似Transformer。

Karpathy预测未来十年AI的核心架构可能仍基于Transformer,但形态会有所演变。他从“时间平移不变性”视角审视技术进步:十年前我们主要采用卷积网络,如今转向Transformer,核心机制仍是前向传播与梯度下降。

“可以预见的是,根据平移等变性,十年后我们依然会使用前向后向传播和梯度下降来训练巨型神经网络,但外观可能有所变化,且所有组件都会变得更加庞大。”

Andrej Karpathy深度访谈:AGI与智能体未来十年的演进路径 AGI  智能体 强化学习 Transformer架构 第2张

通过复现1989年Yann LeCun的卷积网络,Karpathy发现仅靠算法优化可将误差降低一半,但若要进一步改进,必须依赖更庞大的数据、更强大的算力以及更优的软件系统。换言之,算法、数据、硬件与系统进步缺一不可,它们的贡献几乎同等重要。

展望未来,Karpathy认为我们仍将运用梯度下降训练超大规模模型,但算法、结构和效率将进一步优化。

Dwarkesh Patel还询问学习nanochat的最佳途径。

Karpathy强调,真正的知识获取始于从头构建事物之时,因为这会迫使你直面不理解之处。他信奉费曼的名言:“如果我不能构建它,我就不理解它。”因此,他给出的最佳学习方法是:“不要撰写博客文章,不要制作幻灯片,去编写代码并使其运行,这是唯一的学习路径。否则你将缺乏真知。”

大型模型的认知局限

谈及当前热门的大型模型,Karpathy指出它们仍存在根本性的认知缺陷。

Dwarkesh Patel:你在推文中提到,编码模型在组装代码库时对你帮助有限,我好奇原因何在。

Karpathy回顾道,在构建nanochat代码库时,他曾尝试使用Claude Code/Codex这类“编码智能体”,但由于它们无法有效工作,最终代码基本靠手动编写(辅以自动补全)。

Andrej Karpathy深度访谈:AGI与智能体未来十年的演进路径 AGI  智能体 强化学习 Transformer架构 第3张

他将人与代码的交互方式分为三类:第一类,完全手动编写:彻底拒绝所有大型语言模型,仅从头编写代码,这可能已非最佳做法;第二类,手动编写加自动补全:即仍从头编写大量代码,但利用模型提供的自动补全功能。自动补全的代码大多正确,出错时再行编辑,因此开发者依然是代码架构的主导者;第三类,完全“直觉编程”,全权交由智能体处理。

Karpathy认为,智能体虽有优势,如擅长处理样板代码,但面对像nanochat这类“智力密集型代码”时可能力不从心,因此我们应学会在特定场景下运用它们,了解其优缺点及使用方式。

总体而言,Karpathy认为这些模型的发展仍处于中间阶段,需要大量后续工作。在他看来,行业“跳跃”过快,有时看似神奇,实则可能产出粗糙成果。以编码为例,目前“手动编写加自动补全”仍是Karpathy的首选策略。

强化学习:虽不完美却不可或缺

当被问及如何让AI进一步学习与改进时,Karpathy提到了强化学习的困境。

他坦承,强化学习并非完美,但相较以往方法,它仍是当前最优解,因为过去我们仅局限于模仿人类行为。

在强化学习中,假设解决数学问题,模型会尝试数百种不同方法,过程可能复杂且产生大量“噪声”。而人类解决问题时绝不会如此,不会进行数百次推演;且当人类找到解决方案时,会经历复杂的审查过程,当前大型语言模型尚无法做到这一点。

传统监督学习仅在任务结束后给予奖励,而过程监督希望每一步都提供反馈,但这极难实现,因为难以准确将部分奖励分配至中间步骤。

为解决此问题,研究者尝试让大型语言模型充当评委,对模型中间输出进行评估打分。然而,这种方法存在严重缺陷:由于大型语言模型本身参数空间庞大,极易被对抗性样本欺骗。强化学习过程中,模型可能找到奇特“漏洞”,生成无意义输出却仍获高分奖励。这揭示了一个根本问题:评委模型不可靠,其泛化能力不足,难以防御无穷无尽的对抗样本。虽可通过不断加入反例改进评委模型,但此法无法根治问题。

Karpathy认为,未来可能需要引入更高层级的“元学习”或合成数据机制以改进模型评估,但目前尚无实验室在大规模通用环境下成功实现此点。在他看来,强化学习的局限并非终点,而是下一代学习范式的起点。

人类学习与机器学习的对比

梦境或许是一种生物机制——用于防止思维过度拟合现实,促使我们探索非现实场景。

对话中,Patel还探讨了梦境在机器学习中的类比作用。

Dwarkesh Patel:我不确定白日梦、睡眠或单纯反思在机器学习中对应何种机制。你对此有何看法?

Karpathy认为,人类学习不仅吸收信息,还通过反思、讨论等方式整合知识,而当前大型模型仅通过预测下一词进行学习,缺乏这种“思考”过程。他指出,若模型通过自我生成合成数据训练,常会陷入“坍塌”。人类学习的噪声与多样性可防止这种坍塌,因此需要外部熵输入(如交流、梦境)。在Karpathy看来,与大型模型相比,人类的“记忆能力不佳”反是一种进化优势,迫使我们学习可泛化模式。他认为未来AI应减少机械记忆,更像人类那样依靠思考与探索来学习。

由于互联网充斥大量无用数据,Karpathy认为训练数据来源于互联网是件糟糕之事,需构建极大型模型以压缩记忆工作,而真正关键的是认知部分。换言之,真正的智能不在于记忆多寡,而在于理解与泛化能力。

如何看待AI的进步?

我们应如何审视AI的进步?

Karpathy将AI视为计算的延伸。关于通用人工智能,他一直青睐这样一个定义:通用人工智能是一个能够以人类或更优水平完成任何具有经济价值任务的系统。而且,相较最初定义,人们已移除所有“物理性要素”,仅聚焦知识工作,这是一种妥协。

哪些工作会率先被AI取代?Karpathy提及Geoff Hinton一次预言“失误”的例子:Geoff Hinton曾预测放射科医生将消失,结果大错特错——放射科医生依然活跃且数量增长,尽管计算机视觉在图像识别领域表现卓越。但放射科工作场景复杂,不仅涉及读片,还需与患者互动及处理各类情境事务。即便是常被提及的呼叫中心工作,也未能完全实现AI自动化。在此场景下,Karpathy认为较理想的状态是引入处理80%工作量的AI,将20%工作量委托给人类,由人类监督AI团队协同工作。现实中许多工作比呼叫员工更为复杂。Karpathy更看重AI与人类的互补,而非简单替代。

超级人工智能

Dwarkesh Patel:你如何看待超级智能?你预期它会与普通人类或人类公司有本质差异吗?

Karpathy认为,超级智能只是社会自动化进程的自然延伸。“许多事务将逐渐自动化,而超级智能将是这一趋势的延伸。我们预期随时间推移,会出现越来越多自主实体:它们执行大量数字工作,最终甚至可能从事体力劳动。”在一个AI存在的文明中,会与以往人类社会有何本质不同?在Karpathy看来,AI本质上是自动化,这种自动化会显得“非常陌生与奇特”,“当世界运行于计算机集群上时,令人不安的是逐渐丧失对发生之事的控制与理解”,且当这些“逐渐丧失的理解”叠加,理解它的人会越来越少。这是Karpathy认为最可能出现的结果。谈及真正通用人工智能后是否会看到“智能爆炸”,Karpathy认为这不可避免,且我们已处于“智能爆炸”中数十年。从工业革命始,万物逐渐自动化,已持续数百年。因此,“我们长期处于递归式自我改进与智能爆炸之中”。

参考资料:

https://www.youtube.com/watch?v=lXUZvyajciY%20

https://news.ycombinator.com/item?id=45619329%20

https://www.dwarkesh.com/p/andrej-karpathy