在通往AGI(通用人工智能)的征途中,强化学习并非唯一路径。Karpathy最新发文,提出另一种Scaling(扩展)范式,倡导通过类似人类的反思回顾,实现突破。更多S形进步曲线,等待我们去探索。
Grok 4之所以能屹立在大模型之巅,强化学习的Scaling功不可没。
如今,AI领域的领军人物Karpathy泼了一盆冷水:
RL(强化学习)仅将单一数值反馈作为成败标准,效率随任务时长急剧下降。
此外,RL与人类「反思-提炼-再应用」的迭代机制存在巨大差异。
强化学习的核心在于,根据某次行动的表现(好或坏),调整未来类似行动的概率。
通过验证函数,这种方法取得了比显式监督更大的杠杆效应,无疑是其强大之处。
然而,Karpathy认为,从长远来看,强化学习或许并非最优策略。
首先,随着任务交互时间增加到几分钟乃至几小时,RL便面临挑战。
试想一个数小时交互的任务,最终却仅得到一个单一的标量奖励,来调整整个过程的梯度。
这样的反馈能否支撑高效学习?
其次,对于大多数智能任务而言,这不像人类的进步机制。
简而言之,RL的机制与人类智能提升方式存在显著差异。
人类通过复盘/反思阶段,从每次推演中提取大量监督信息,如「哪里做得好?哪里不太行?下次该试试什么?」等。
这些教训明确而具体,可添加到未来的系统提示词中,或选择性地在之后被「蒸馏」成权重/直觉。
为此,Karpathy提出了一个算法框架:
给定任务后,进行多次推演,将所有推演过程(包括每次奖励)放入上下文,用元提示词复盘/反思哪些地方做得好或不好,提炼出字符串形式的「教训」,并添加到系统提示词中(或更通用地,更新当前教训数据库)。
最近,关于强化学习的讨论成为AI圈热点。
除了Karpathy本人发声外,前OpenAI研究员Kevin Lu上周也发表长文称,Transformer只是配角,应放弃无效RL研究!
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436970.html