当前位置：首页 > 科技资讯 > 正文

AI困境：自回归模型的长程任务挑战

主机测评网
科技资讯
2026-04-11
113

最近，众多论文聚焦于探讨Agent面临的困境。

这些困境确实存在。在应用层面，一旦离开了像Skill这样的人造拐杖，Agent在处理真实世界的长程任务时显得极不可靠。

这些困境通常被归结为两个原因。

第一个是上下文的黑洞。正如腾讯首席AI科学家姚顺雨及其团队通过CL Bench所揭示的那样，模型可能根本无法理解复杂的上下文，因此无法按照指令行事。

第二个原因更为致命，它被称为长期规划的崩塌。这意味着，一旦规划的步骤变长，模型便开始迷茫。这就像喝多了酒的人，走两步是直的，但走十步就开始画圈。

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第1张

Yann Lecun经常提到，“自回归模型只做Next Token Prediction（下一个词预测），因此根本没法达到理解和AGI。”

但之前这只是一个判断或信仰，没有实证证据。直到这篇重磅论文《The Hot Mess of AI 》（AI的一团乱麻）发布，它给出了一些实证证据。

此外，这篇论文还预示了一个可怕的现实：随着模型变强，它确实变得更聪明了，但混乱并未减少。

01 能力的幻觉与错误的真相

这个论断其实挺反直觉的，毕竟不是刚提出了AI编程任务处理时长每7个月翻一倍的新Agent摩尔定律吗？

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第2张

在SWE-bench这样的编程测试中，前沿模型也一直在刷新纪录。代码写得越来越长，修复的Bug也越来越难。

所以直觉告诉我们：模型变强了，处理复杂长程任务的能力就强了，AGI指日可待。

但Anthropic的论文更关心的是，现在模型在长程任务中的错误究竟来自哪里。

为了搞清楚这个问题，研究团队引入了一个统计学里的经典工具——偏差-方差分解（Bias-Variance Decomposition）。

作者主要使用KL散度分解来量化这两个指标。

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第3张

在这里，作者提出了一个核心指标：不连贯性（Incoherence），它是指总错误中，由「方差」导致的比例是多少。

这个值是用来衡量当AI搞砸的时候，是因为笨（不懂怎么做）搞砸的，还是因为疯（乱做）搞砸的？

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第4张任务越长，AI越疯。无论是在GPQA（科学问答）还是SWE-bench（编程）中，随着推理链条变长或行动步骤增加，不连贯性都直线上升。这说明，模型错误的来源发生了质变：一开始是偏差导致的错误多，后来就是方差导致的错误更多。

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第5张第二个结论是模型越大，在难题上越不连贯。通常认为大模型更稳定。但在最困难的任务上，实验数据表明，虽然规模更大的模型总错误率降低了，但它的不连贯性反而上升了。

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第6张单纯把模型做大，并不能消除这种内在的随机性。实际上，随着模型变大，其内部状态空间呈指数级膨胀。每一步预测带来的微小随机扰动（Variance），在巨大的状态空间里被长链条的推理不断放大。

02 自回归的原罪

为什么我们造出的超级大脑最后会变成一个掷骰子的赌徒？

论文给出了一个基于物理视角的解释：即动力系统（Dynamical Systems）与优化器（Optimizers）的本质冲突。

AI困境：自回归模型的长程任务挑战自回归模型长程任务偏差-方差分解 AGI 第7张目前的LLM本质上是自回归的。它是一个动力系统。而想要的Agent是一个优化器。希望它设定一个远期目标，然后所有的动作都为了最小化在这个目标上的损失函数。但“在所有动力系统的集合中，能够表现得像一个固定损失函数的优化器的子集，其测度为零。”这是一个数学上的判决：让自回归模型干优化器的活儿，可能性无限接近于零。