当前位置:首页 > 科技资讯 > 正文

AI困境:自回归模型的长程任务挑战

最近,众多论文聚焦于探讨Agent面临的困境。

这些困境确实存在。在应用层面,一旦离开了像Skill这样的人造拐杖,Agent在处理真实世界的长程任务时显得极不可靠。

这些困境通常被归结为两个原因。

第一个是上下文的黑洞。正如腾讯首席AI科学家姚顺雨及其团队通过CL Bench所揭示的那样,模型可能根本无法理解复杂的上下文,因此无法按照指令行事。

第二个原因更为致命,它被称为长期规划的崩塌。这意味着,一旦规划的步骤变长,模型便开始迷茫。这就像喝多了酒的人,走两步是直的,但走十步就开始画圈。

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第1张

Yann Lecun经常提到,“自回归模型只做Next Token Prediction(下一个词预测),因此根本没法达到理解和AGI。”

但之前这只是一个判断或信仰,没有实证证据。直到这篇重磅论文《The Hot Mess of AI 》(AI的一团乱麻)发布,它给出了一些实证证据。

此外,这篇论文还预示了一个可怕的现实:随着模型变强,它确实变得更聪明了,但混乱并未减少。

01

能力的幻觉与错误的真相

这个论断其实挺反直觉的,毕竟不是刚提出了AI编程任务处理时长每7个月翻一倍的新Agent摩尔定律吗?

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第2张

在SWE-bench这样的编程测试中,前沿模型也一直在刷新纪录。代码写得越来越长,修复的Bug也越来越难。

所以直觉告诉我们:模型变强了,处理复杂长程任务的能力就强了,AGI指日可待。

但Anthropic的论文更关心的是,现在模型在长程任务中的错误究竟来自哪里。

为了搞清楚这个问题,研究团队引入了一个统计学里的经典工具——偏差-方差分解(Bias-Variance Decomposition)

作者主要使用KL散度分解来量化这两个指标。

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第3张

在这里,作者提出了一个核心指标:不连贯性(Incoherence),它是指总错误中,由「方差」导致的比例是多少。

这个值是用来衡量当AI搞砸的时候,是因为笨(不懂怎么做)搞砸的,还是因为疯(乱做)搞砸的?

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第4张任务越长,AI越疯。无论是在GPQA(科学问答)还是SWE-bench(编程)中,随着推理链条变长或行动步骤增加,不连贯性都直线上升。这说明,模型错误的来源发生了质变:一开始是偏差导致的错误多,后来就是方差导致的错误更多。

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第5张第二个结论是模型越大,在难题上越不连贯。通常认为大模型更稳定。但在最困难的任务上,实验数据表明,虽然规模更大的模型总错误率降低了,但它的不连贯性反而上升了。

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第6张单纯把模型做大,并不能消除这种内在的随机性。实际上,随着模型变大,其内部状态空间呈指数级膨胀。每一步预测带来的微小随机扰动(Variance),在巨大的状态空间里被长链条的推理不断放大。

02

自回归的原罪

为什么我们造出的超级大脑最后会变成一个掷骰子的赌徒?

论文给出了一个基于物理视角的解释:即动力系统(Dynamical Systems)与优化器(Optimizers)的本质冲突

AI困境:自回归模型的长程任务挑战 自回归模型 长程任务 偏差-方差分解 AGI 第7张目前的LLM本质上是自回归的。它是一个动力系统。而想要的Agent是一个优化器。希望它设定一个远期目标,然后所有的动作都为了最小化在这个目标上的损失函数。但“在所有动力系统的集合中,能够表现得像一个固定损失函数的优化器的子集,其测度为零。”这是一个数学上的判决:让自回归模型干优化器的活儿,可能性无限接近于零。

死缓后的自救

文章似乎已经为自回归模型通向AGI判了死缓。

但并非完全没救。

阿里云服务器性价比vps高防服务器