当前位置:首页 > 科技资讯 > 正文

Karpathy提出新范式:复盘学习或引领AI突破

在通往AGI(通用人工智能)的征途中,强化学习并非唯一路径。Karpathy最新发文,提出另一种Scaling(扩展)范式,倡导通过类似人类的反思回顾,实现突破。更多S形进步曲线,等待我们去探索。

Grok 4之所以能屹立在大模型之巅,强化学习的Scaling功不可没。

Karpathy提出新范式:复盘学习或引领AI突破 复盘学习 强化学习 Karpathy AI突破 第1张

Karpathy提出新范式:复盘学习或引领AI突破 复盘学习 强化学习 Karpathy AI突破 第2张

如今,AI领域的领军人物Karpathy泼了一盆冷水:

RL(强化学习)仅将单一数值反馈作为成败标准,效率随任务时长急剧下降。

此外,RL与人类「反思-提炼-再应用」的迭代机制存在巨大差异。

Karpathy提出新范式:复盘学习或引领AI突破 复盘学习 强化学习 Karpathy AI突破 第3张

短期奏效,但真正突破在于「复盘学习」

强化学习的核心在于,根据某次行动的表现(好或坏),调整未来类似行动的概率。

通过验证函数,这种方法取得了比显式监督更大的杠杆效应,无疑是其强大之处。

然而,Karpathy认为,从长远来看,强化学习或许并非最优策略。

长时程任务,RL局限显现

首先,随着任务交互时间增加到几分钟乃至几小时,RL便面临挑战。

试想一个数小时交互的任务,最终却仅得到一个单一的标量奖励,来调整整个过程的梯度。

这样的反馈能否支撑高效学习?

Karpathy提出新范式:复盘学习或引领AI突破 复盘学习 强化学习 Karpathy AI突破 第4张

RL机制与人类差异显著

其次,对于大多数智能任务而言,这不像人类的进步机制。

简而言之,RL的机制与人类智能提升方式存在显著差异。

人类通过复盘/反思阶段,从每次推演中提取大量监督信息,如「哪里做得好?哪里不太行?下次该试试什么?」等。

这些教训明确而具体,可添加到未来的系统提示词中,或选择性地在之后被「蒸馏」成权重/直觉。

算法新设想:回顾-反思范式

为此,Karpathy提出了一个算法框架:

给定任务后,进行多次推演,将所有推演过程(包括每次奖励)放入上下文,用元提示词复盘/反思哪些地方做得好或不好,提炼出字符串形式的「教训」,并添加到系统提示词中(或更通用地,更新当前教训数据库)。

放弃无效RL研究

最近,关于强化学习的讨论成为AI圈热点。

除了Karpathy本人发声外,前OpenAI研究员Kevin Lu上周也发表长文称,Transformer只是配角,应放弃无效RL研究!

Karpathy提出新范式:复盘学习或引领AI突破 复盘学习 强化学习 Karpathy AI突破 第5张

参考资料

https://x.com/karpathy/status/...