【导读】大型语言模型为何在执行长时间任务时频繁失误?这导致一些专家质疑其推理能力,认为它们可能仅提供了“思考的幻觉”。近日,剑桥大学等机构的一项研究澄清:问题并非出现在推理层面,而是源于大模型的执行计划能力存在短板。
人工智能模型同样会陷入“情绪化”状态。
例如,Gemini在Cursor中调试编译错误后,进入自责“循环模式”,将“I am a disgrace(我很丢脸)”重复了86次。
尽管大模型在复杂推理上已取得显著进展,但此类现象仍让部分专家怀疑:
思考模型或许只营造了“思考的假象”,因为当任务延长时,它们最终会失败。
最近,剑桥大学等机构的研究对这些“翻车”现象作出解释,研究者强调:
问题不在于大模型的推理能力,而在于其执行计划的能力。
边际收益递减的错觉:衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677
换言之,大模型出现问题未必是源于“思考的幻觉”,而更可能是执行阶段“打滑”所致。
研究人员发现,单步准确率的小幅提升,会复利式地放大能完成的总步骤数,使任务“里程”指数级延长。
随着步骤数量增加,模型的每步准确率会下降——这不仅是“上下文太长”所致,还有一个更“诡异”的现象:自条件化效应(self-conditioning)。
所谓“自条件化”,即当上下文包含模型先前犯过的错误时,将导致它在后续过程中更容易再犯错。
业界正竞相开发能够处理整个项目而非孤立问题的智能体,随之而来的一个根本问题是:
如何度量大模型能可靠执行的步骤数量?
任务一旦延长,就失败。这是因为大模型“不会推理”吗?
研究人员认为,大模型在早期多步中能正确遵循指令,说明其具备按计划执行的能力。
这也证明,大模型不是失败在了推理上,而是在执行上:
随着任务变长,模型在执行计划时更可能出错。
目前,大量研究聚焦于大模型的推理能力,而对执行稳定性关注不足。
这一点,随着大模型被用于长推理与智能体任务,重要性也正日益凸显。
长视界任务需要大量步骤,其中任务长度,即为完成任务所需的步骤数。
研究人员通过下面几个指标来评估性能:
如图2所示,模型在超过50%准确率下可执行的任务长度,在单步准确率超过70%后,随单步准确率增加,而呈现快于指数的增长。
图3显示了如何把“长视界任务”,抽象为一串可控的小步骤,以及如何只测“执行力”,而不掺杂“规划力”。
左图中,该框架将长视界任务建模为一系列“先检索、再合成”的步骤。
右图中,研究人员设计了一个简单任务,用以将规划与执行解耦:
每一轮以键(key)给出计划,要求模型检索对应值(value),并计算累计和。
该推导表明,即便在问答类任务上准确率的提升似乎在放缓,仍然可以在更长的任务上预期得到巨大的收益。
例如,在软件工程任务上,前沿模型在s=0.5时的视界长度呈指数增长,每7个月翻一番。
研究人员认为,单轮或短任务基准,在评估进一步投资LLM算力收益时,可能制造出“进展放缓”的错觉,而模型可完成的任务长度,是更能指示经济价值的指标,它们却可能在快速增长。
研究人员把“要做什么”(规划)和“知道什么”(知识)都喂给模型,只考它能不能稳定地把步骤一口气做完。
这样就能纯粹度量LLM的长视界执行能力。
以订机票为例。
现实中,订机票不是一句“帮我订”就完了,它是一串流程:
其中的每一步,都要先“检索”信息/调用工具,再把新信息与当前判断融合。
评完一个航班是一次执行;评完多条备选航班直到下单,是一段长视界执行。
经常会有人将执行失败归因到“不会推理/不会规划”。
研究人员则认为,就算推理、规划和世界知识都完美,LLM在长链条上仍可能因为“执行不稳”而失误。
因此,他们将执行单独拎出来测——把计划和知识都显式提供,只让模型照做。
研究人员首先验证这样的假设:
即便在不需要世界知识与规划的任务上,长视界执行也会很难。随后,再研究扩大模型规模对长视界执行的益处。
研究人员评估了Qwen3、Gemma3模型家族。
在实验中,研究人员将轮次复杂度设置为最简单形式(K=1),每轮仅提供一个键,并改变轮次数量。
结果1:长视界执行仍然很具挑战性。
如图4所示,除了Gemma3-4B与Qwen3-4B外,所有模型在第一步的准确率均达到了100%,表明它们具备完成我们任务单步所需的知识与推理能力。
然而,任务准确率在后续轮次迅速下滑。
即便是表现最好的Qwen3-32B,其准确率也会在15轮内跌到50%以下。
这证实了研究人员的假设:
即便移除了规划和知识需求,长视界执行依然很难。
如图4,研究人员改变模型规模,并研究随着轮次数增加的完整任务准确率(a)与逐轮准确率(b)。
粗体线是5轮的滑动平均。
虚线(b)中的逐轮准确率显示除了最小的模型外,任务的单步准确率都是100%。
然而,随着轮次数增加,小模型与大模型的性能差距拉大(a),后者拥有显著更长的视界长度(c)。
结果2:扩大模型规模的收益并不递减。
如图4(a)所示,更大的模型能在更多轮次上保持更高的任务准确率,从而带来清晰的视界长度缩放趋势(图4(c))。
这验证了两点重要结论:
长视界执行是困难的;
扩大模型规模,能显著增加模型可正确执行的轮次数。
人们可能会期望,模型会在逐轮中保持恒定。
然而,图4(b)显示,随着轮次数增加,各轮的准确率稳步下降。
研究人员考察两个相互竞争的假设:
无论上下文内容如何,模型的性能仅仅由于上下文变长而退化。
模型会基于其过去的错误自条件化:看到前几轮的错误之后,它更可能在后续轮中犯错。
为解开这两个因素,研究人员通过操控模型的聊天历史,进行反事实实验。
他们用所选错误率注入人工输出历史,来控制错误率,格式保持一致。
如果完全“治愈”历史(诱导错误率为0%),那么模型在第1轮,与较后某一轮之间的准确率退化,就可归因于长上下文问题。
如果在保持“较后某一轮”固定的情况下,随着先前轮次错误率的上升,模型的准确率持续变差,这将表明模型会基于自己的过往错误进行条件化,从而提高未来错误的可能性。
结果3:自条件化,会在长上下文之外进一步导致逐轮准确率退化。
图5(a)中的结果显示,长上下文与自条件化都会导致退化。
研究人员发现,当基于无错历史进行条件化(诱导错误率=0.00)时,第100轮的逐轮准确率低于初始值,与先前关于长上下文退化的观察一致。
更有意思的是,当研究人员提高注入到上下文中的错误率时,第100轮的准确率会持续下降。
这表明了自条件化效应:当模型犯错时,它更可能继续犯错,导致如图5(b)所示的逐轮准确率在输出轨迹中持续退化。
结果4:与长上下文不同,扩大模型规模不能缓解自条件化。
注意在诱导错误率为0的情况下,第100轮的准确率会随着模型变大而稳定提升。
如图5(c)所示,把规模扩展到前沿(200B+参数)的模型,如Kimi-K2、DeepSeek-V3以及Qwen3-235B-Instruct-2507,基本解决了在100轮以内的长上下文退化问题,在“治愈”历史下实现了近乎完美的准确率。
然而,即便这样,这些大模型仍然容易受到自条件化的影响,当其历史中的诱导错误率上升时,性能仍会持续退化。
这或许与近期结果相似:
更大的模型在多轮对话中会出现人格漂移。在该项研究中,漂移的方向是“更容易犯错”的人格。
此外,模型会基于其过去的错误进行自条件化,导致每步准确率的退化。仅扩大模型规模不足以缓解这一点。
结果5:思考修复了自条件化。
图6中,研究人员清楚看到Qwen3的思考模型不会自条件化。
无论上下文中的错误率如何,模型在第100轮的准确率都保持稳定。
研究人员将之归结为两个原因:
其一,RL训练可能降低了语言模型“续写最可能下一个Token”的行为,使其更面向任务成功而非延续上下文。
其二,去除先前轮的思考轨迹,可能降低先前轮对模型输出的影响,因为模型会独立地思考新的这一轮。
启用思考的Qwen3模型不再发生自条件化,即便整个先前历史都是错误答案;这与非思考设置的结果形成对比。
研究人员以单轮可执行的任务长度为指标,对近期的“思考/Thinking”类模型,进行了基准评测,发现它们“抗翻车能力”更强:
它们不太会被先前错误带偏(自条件化被显著修复);
在单轮里就能把更长的任务跑完。
这证实了“先推理,后行动”的重要性,比如:
DeepSeek-V3不加思维链跑2步都难,但其思考版R1却能跑到200步;
GPT-5 Thinking单轮可执行1000+步,Claude-4-Sonnet约432步。
Akshit Sinha,剑桥大学机器学习与机器智能MPhil(MLMI)研究生。研究方向为大模型能力评估与提升、图神经网络(GNN)解释性与“遗忘/反学习”、多智能体等。
在此之前,Akshit Sinha在IIIT Hyderabad计算机科学与工程学院获得荣誉学士学位。他在Ponnurangam Kumaraguru的指导下,在Precog实验室从事基于图的机器学习研究。
参考资料:
https://x.com/arvindh__a/status/1966526369463951424
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115866.html