当前位置：首页 > 科技资讯 > 正文

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车

主机测评网
科技资讯
2026-01-08
478

【导读】大型语言模型为何在执行长时间任务时频繁失误？这导致一些专家质疑其推理能力，认为它们可能仅提供了“思考的幻觉”。近日，剑桥大学等机构的一项研究澄清：问题并非出现在推理层面，而是源于大模型的执行计划能力存在短板。

人工智能模型同样会陷入“情绪化”状态。

例如，Gemini在Cursor中调试编译错误后，进入自责“循环模式”，将“I am a disgrace（我很丢脸）”重复了86次。

尽管大模型在复杂推理上已取得显著进展，但此类现象仍让部分专家怀疑：

思考模型或许只营造了“思考的假象”，因为当任务延长时，它们最终会失败。

最近，剑桥大学等机构的研究对这些“翻车”现象作出解释，研究者强调：

问题不在于大模型的推理能力，而在于其执行计划的能力。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第1张

边际收益递减的错觉：衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677

换言之，大模型出现问题未必是源于“思考的幻觉”，而更可能是执行阶段“打滑”所致。

研究人员发现，单步准确率的小幅提升，会复利式地放大能完成的总步骤数，使任务“里程”指数级延长。

随着步骤数量增加，模型的每步准确率会下降——这不仅是“上下文太长”所致，还有一个更“诡异”的现象：自条件化效应（self-conditioning）。

所谓“自条件化”，即当上下文包含模型先前犯过的错误时，将导致它在后续过程中更容易再犯错。

任务变长就失败，只因模型不会推理？

业界正竞相开发能够处理整个项目而非孤立问题的智能体，随之而来的一个根本问题是：

如何度量大模型能可靠执行的步骤数量？

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第2张

任务一旦延长，就失败。这是因为大模型“不会推理”吗？

研究人员认为，大模型在早期多步中能正确遵循指令，说明其具备按计划执行的能力。

这也证明，大模型不是失败在了推理上，而是在执行上：

随着任务变长，模型在执行计划时更可能出错。

目前，大量研究聚焦于大模型的推理能力，而对执行稳定性关注不足。

这一点，随着大模型被用于长推理与智能体任务，重要性也正日益凸显。

单步稳一点，长跑多一截

长视界任务需要大量步骤，其中任务长度，即为完成任务所需的步骤数。

研究人员通过下面几个指标来评估性能：

步骤准确率（Step Accuracy）：度量在第i-1步到第i步的状态更新是否正确的样本占比，而不考虑模型在第i-1步的状态是否正确；
轮次准确率（Turn Accuracy）：一轮是与模型的一次交互，可能需要执行多个步骤。轮次准确率度量在第t-1轮到第t轮的状态更新是否正确的样本占比，而不考虑模型在第t-1轮的状态是否正确；
轮次复杂度（K）（Turn Complexity）：定义为模型每轮必须执行的步骤数；
任务准确率（Task Accuracy）：度量模型在执行i个步骤的过程中不犯任何错误、从而完成任务的样本占比；
视界长度（Hs）（Horizon Length）：给定成功率阈值0 ≤ s ≤ 1。将模型的视界长度定义为模型在第i个步骤处的平均任务准确率降到低于概率s的位置。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第3张

如图2所示，模型在超过50%准确率下可执行的任务长度，在单步准确率超过70%后，随单步准确率增加，而呈现快于指数的增长。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第4张

图3显示了如何把“长视界任务”，抽象为一串可控的小步骤，以及如何只测“执行力”，而不掺杂“规划力”。

左图中，该框架将长视界任务建模为一系列“先检索、再合成”的步骤。

右图中，研究人员设计了一个简单任务，用以将规划与执行解耦：

每一轮以键（key）给出计划，要求模型检索对应值（value），并计算累计和。

该推导表明，即便在问答类任务上准确率的提升似乎在放缓，仍然可以在更长的任务上预期得到巨大的收益。

例如，在软件工程任务上，前沿模型在s=0.5时的视界长度呈指数增长，每7个月翻一番。

研究人员认为，单轮或短任务基准，在评估进一步投资LLM算力收益时，可能制造出“进展放缓”的错觉，而模型可完成的任务长度，是更能指示经济价值的指标，它们却可能在快速增长。

只考“执行力”把规划和知识先拿掉

研究人员把“要做什么”（规划）和“知道什么”（知识）都喂给模型，只考它能不能稳定地把步骤一口气做完。

这样就能纯粹度量LLM的长视界执行能力。

以订机票为例。

现实中，订机票不是一句“帮我订”就完了，它是一串流程：

打开某个航班详情；
核对起降时间、行李额度、转机时长、准点率、口碑；
套用里程、会员、优惠券；
在“价格×时长×偏好”的权衡里做选择。

其中的每一步，都要先“检索”信息/调用工具，再把新信息与当前判断融合。

评完一个航班是一次执行；评完多条备选航班直到下单，是一段长视界执行。

经常会有人将执行失败归因到“不会推理/不会规划”。

研究人员则认为，就算推理、规划和世界知识都完美，LLM在长链条上仍可能因为“执行不稳”而失误。

因此，他们将执行单独拎出来测——把计划和知识都显式提供，只让模型照做。

研究人员首先验证这样的假设：

即便在不需要世界知识与规划的任务上，长视界执行也会很难。随后，再研究扩大模型规模对长视界执行的益处。

研究人员评估了Qwen3、Gemma3模型家族。

在实验中，研究人员将轮次复杂度设置为最简单形式（K=1），每轮仅提供一个键，并改变轮次数量。

结果1：长视界执行仍然很具挑战性。

如图4所示，除了Gemma3-4B与Qwen3-4B外，所有模型在第一步的准确率均达到了100%，表明它们具备完成我们任务单步所需的知识与推理能力。

然而，任务准确率在后续轮次迅速下滑。

即便是表现最好的Qwen3-32B，其准确率也会在15轮内跌到50%以下。

这证实了研究人员的假设：

即便移除了规划和知识需求，长视界执行依然很难。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第5张

如图4，研究人员改变模型规模，并研究随着轮次数增加的完整任务准确率（a）与逐轮准确率（b）。

粗体线是5轮的滑动平均。

虚线（b）中的逐轮准确率显示除了最小的模型外，任务的单步准确率都是100%。

然而，随着轮次数增加，小模型与大模型的性能差距拉大（a），后者拥有显著更长的视界长度（c）。

结果2：扩大模型规模的收益并不递减。

如图4（a）所示，更大的模型能在更多轮次上保持更高的任务准确率，从而带来清晰的视界长度缩放趋势（图4（c））。

这验证了两点重要结论：

长视界执行是困难的；

扩大模型规模，能显著增加模型可正确执行的轮次数。

自条件化效应，为什么轮次准确率会退化？

人们可能会期望，模型会在逐轮中保持恒定。

然而，图4（b）显示，随着轮次数增加，各轮的准确率稳步下降。

研究人员考察两个相互竞争的假设：

无论上下文内容如何，模型的性能仅仅由于上下文变长而退化。

模型会基于其过去的错误自条件化：看到前几轮的错误之后，它更可能在后续轮中犯错。

为解开这两个因素，研究人员通过操控模型的聊天历史，进行反事实实验。

他们用所选错误率注入人工输出历史，来控制错误率，格式保持一致。

如果完全“治愈”历史（诱导错误率为0%），那么模型在第1轮，与较后某一轮之间的准确率退化，就可归因于长上下文问题。

如果在保持“较后某一轮”固定的情况下，随着先前轮次错误率的上升，模型的准确率持续变差，这将表明模型会基于自己的过往错误进行条件化，从而提高未来错误的可能性。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第6张

结果3：自条件化，会在长上下文之外进一步导致逐轮准确率退化。

图5（a）中的结果显示，长上下文与自条件化都会导致退化。

研究人员发现，当基于无错历史进行条件化（诱导错误率=0.00）时，第100轮的逐轮准确率低于初始值，与先前关于长上下文退化的观察一致。

更有意思的是，当研究人员提高注入到上下文中的错误率时，第100轮的准确率会持续下降。

这表明了自条件化效应：当模型犯错时，它更可能继续犯错，导致如图5（b）所示的逐轮准确率在输出轨迹中持续退化。

结果4：与长上下文不同，扩大模型规模不能缓解自条件化。

注意在诱导错误率为0的情况下，第100轮的准确率会随着模型变大而稳定提升。

如图5（c）所示，把规模扩展到前沿（200B+参数）的模型，如Kimi-K2、DeepSeek-V3以及Qwen3-235B-Instruct-2507，基本解决了在100轮以内的长上下文退化问题，在“治愈”历史下实现了近乎完美的准确率。

然而，即便这样，这些大模型仍然容易受到自条件化的影响，当其历史中的诱导错误率上升时，性能仍会持续退化。

这或许与近期结果相似：

更大的模型在多轮对话中会出现人格漂移。在该项研究中，漂移的方向是“更容易犯错”的人格。

此外，模型会基于其过去的错误进行自条件化，导致每步准确率的退化。仅扩大模型规模不足以缓解这一点。

结果5：思考修复了自条件化。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第7张

图6中，研究人员清楚看到Qwen3的思考模型不会自条件化。

无论上下文中的错误率如何，模型在第100轮的准确率都保持稳定。

研究人员将之归结为两个原因：

其一，RL训练可能降低了语言模型“续写最可能下一个Token”的行为，使其更面向任务成功而非延续上下文。

其二，去除先前轮的思考轨迹，可能降低先前轮对模型输出的影响，因为模型会独立地思考新的这一轮。

启用思考的Qwen3模型不再发生自条件化，即便整个先前历史都是错误答案；这与非思考设置的结果形成对比。

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第8张

研究人员以单轮可执行的任务长度为指标，对近期的“思考/Thinking”类模型，进行了基准评测，发现它们“抗翻车能力”更强：

它们不太会被先前错误带偏（自条件化被显著修复）；

在单轮里就能把更长的任务跑完。

这证实了“先推理，后行动”的重要性，比如：

DeepSeek-V3不加思维链跑2步都难，但其思考版R1却能跑到200步；

GPT-5 Thinking单轮可执行1000+步，Claude-4-Sonnet约432步。

作者简介

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车大语言模型长时任务执行自条件化效应思考模型第9张

Akshit Sinha，剑桥大学机器学习与机器智能MPhil（MLMI）研究生。研究方向为大模型能力评估与提升、图神经网络（GNN）解释性与“遗忘/反学习”、多智能体等。

在此之前，Akshit Sinha在IIIT Hyderabad计算机科学与工程学院获得荣誉学士学位。他在Ponnurangam Kumaraguru的指导下，在Precog实验室从事基于图的机器学习研究。

参考资料：

https://x.com/arvindh__a/status/1966526369463951424

高防服务器服务器教程免费vps

本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260115866.html

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车

任务变长就失败，只因模型不会推理？

单步稳一点，长跑多一截

只考“执行力”把规划和知识先拿掉

自条件化效应，为什么轮次准确率会退化？

作者简介

Linux文件操作核心剖析（理解fd、文件表与inode的三大数据结构）

Ubuntu安装宝塔面板详细教程（小白也能轻松上手的BTPanel安装指南）

剑桥研究揭示大模型长时任务执行瓶颈：自条件化效应致翻车

任务变长就失败，只因模型不会推理？

单步稳一点，长跑多一截

只考“执行力”把规划和知识先拿掉

自条件化效应，为什么轮次准确率会退化？

作者简介

Linux文件操作核心剖析（理解fd、文件表与inode的三大数据结构）

Ubuntu安装宝塔面板详细教程（小白也能轻松上手的BTPanel安装指南）

相关文章