当前位置：首页 > 科技资讯 > 正文

Karpathy提出新范式：复盘学习或引领AI突破

在通往AGI（通用人工智能）的征途中，强化学习并非唯一路径。Karpathy最新发文，提出另一种Scaling（扩展）范式，倡导通过类似人类的反思回顾，实现突破。更多S形进步曲线，等待我们去探索。

Grok 4之所以能屹立在大模型之巅，强化学习的Scaling功不可没。

Karpathy提出新范式：复盘学习或引领AI突破复盘学习强化学习 Karpathy AI突破第1张

Karpathy提出新范式：复盘学习或引领AI突破复盘学习强化学习 Karpathy AI突破第2张

如今，AI领域的领军人物Karpathy泼了一盆冷水：

RL（强化学习）仅将单一数值反馈作为成败标准，效率随任务时长急剧下降。

此外，RL与人类「反思-提炼-再应用」的迭代机制存在巨大差异。

Karpathy提出新范式：复盘学习或引领AI突破复盘学习强化学习 Karpathy AI突破第3张

短期奏效，但真正突破在于「复盘学习」

强化学习的核心在于，根据某次行动的表现（好或坏），调整未来类似行动的概率。

通过验证函数，这种方法取得了比显式监督更大的杠杆效应，无疑是其强大之处。

然而，Karpathy认为，从长远来看，强化学习或许并非最优策略。

首先，随着任务交互时间增加到几分钟乃至几小时，RL便面临挑战。

试想一个数小时交互的任务，最终却仅得到一个单一的标量奖励，来调整整个过程的梯度。

这样的反馈能否支撑高效学习？

Karpathy提出新范式：复盘学习或引领AI突破复盘学习强化学习 Karpathy AI突破第4张

其次，对于大多数智能任务而言，这不像人类的进步机制。

简而言之，RL的机制与人类智能提升方式存在显著差异。

人类通过复盘/反思阶段，从每次推演中提取大量监督信息，如「哪里做得好？哪里不太行？下次该试试什么？」等。

这些教训明确而具体，可添加到未来的系统提示词中，或选择性地在之后被「蒸馏」成权重/直觉。

为此，Karpathy提出了一个算法框架：

给定任务后，进行多次推演，将所有推演过程（包括每次奖励）放入上下文，用元提示词复盘/反思哪些地方做得好或不好，提炼出字符串形式的「教训」，并添加到系统提示词中（或更通用地，更新当前教训数据库）。

最近，关于强化学习的讨论成为AI圈热点。

除了Karpathy本人发声外，前OpenAI研究员Kevin Lu上周也发表长文称，Transformer只是配角，应放弃无效RL研究！

Karpathy提出新范式：复盘学习或引领AI突破复盘学习强化学习 Karpathy AI突破第5张

本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260436970.html