当前位置：首页 > 科技资讯 > 正文

大模型的长程任务执行：收益递减的幻象与指数级增长的可能

主机测评网
科技资讯
2026-04-29
226

许多人认为，Scaling Law 正在经历收益递减，因此，持续扩大计算规模以训练模型的做法受到质疑。然而，最新研究给出了不同结论。研究发现，即使模型在“单步任务”上的准确率提升放缓，这些微小进步的累积也能使模型完成任务的长度实现“指数级增长”，这在现实中可能具有更高的经济价值。

大模型的长程任务执行：收益递减的幻象与指数级增长的可能 Scaling Law 收益递减长程任务执行 LLM 第1张

如果继续扩大计算规模，边际收益递减，企业是否应继续投入巨资训练更大模型？自去年以来，AI领域就这一问题展开争论。

最近，一篇论文提出了有趣观点：尽管Scaling Law显示大型语言模型（LLM）在测试损失等指标上存在收益递减，但模型在现实世界的价值往往源于其能完成任务的长度。从这个角度看，更大的模型非但没有收益递减，反而能将单步准确率的微小提升复合放大，实现任务完成长度的指数级跃升。

大模型的长程任务执行：收益递减的幻象与指数级增长的可能 Scaling Law 收益递减长程任务执行 LLM 第2张

论文标题：The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
论文链接：https://arxiv.org/pdf/2509.09677
代码链接：https://github.com/long-horizon-execution/measuring-execution
数据集链接：https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution

这篇论文来自剑桥大学等机构。论文指出，长期以来，完成长程任务一直是深度学习的弱点。自动驾驶Demo很炫酷，但要真正上路跑长途，用了十多年才实现。AI能生成惊艳图片，但拍一段连贯、一致的长视频仍是难题。现在企业都希望AI帮忙处理整个项目，而不只是回答零散问题。但这里有个核心疑问：我们该如何衡量LLM能可靠执行多少步的工作？

LLM在简单长任务上的失败被认为是推理能力的根本缺陷。尽管LLM在复杂推理基准测试上有了巨大改进，仍有论文声称思考模型只是给出了“思考的幻觉”（arXiv:2506.06941），因为当任务变长时，它们最终会失败。

这些结果引发了很多争论。但本文作者认为，我们可以通过解耦推理或智能体任务中的规划（planning）和执行（execution）需求来解决这个问题。

规划涉及决定检索什么信息或使用什么工具以及使用顺序，而执行就是让规划变成现实。在《思考的幻觉》论文中，LLM显然知道规划，因为它最初正确地执行了许多步骤。本文研究者认为，最终失败在于执行——随着任务变长，模型在执行规划时更容易犯错。尽管人们非常关注LLM的规划能力，但执行仍然是一个研究不足的挑战。随着LLM开始用于长推理和智能体任务，这一方向变得越来越重要。

在这篇论文中，作者在受控环境中测量了LLM的长程执行能力。他们通过显式提供所需的知识和规划来隔离LLM的执行能力。通过控制轮数和每轮的步骤数（它们共同构成任务长度），他们揭示了关于LLM长程任务执行能力的见解：

1、Scaling是否存在收益递减？

作者观察到，虽然单步准确率的提升幅度在减小，但准确率的微小提升可以复合放大，进而导致模型能够完成的任务长度呈指数级增长。

过去大家觉得，scaling模型大小之所以有用，是因为这会提高模型存储参数化知识或搜索规划的能力。

然而，作者在实验中发现，在显式提供了所需的知识和规划后，scaling模型大小仍能显著提高模型成功执行的轮次数量。这说明scaling模型的价值不仅体现在能让模型记住更多知识或更会寻找问题解答上。

2、Self-Conditioning效应

人们可能会认为，长任务中的失败仅仅是由于小而恒定的每步错误率不断累积造成的。然而，作者发现，随着任务的推进，每步错误率本身会上升。这与人类形成了对比，人类在执行任务时通常会通过练习而进步。

作者推测，由于模型训练的很大一部分是根据上下文预测最可能的下一个token，因此让模型以自身容易出错的历史为条件会增加未来出错的可能性。他们通过控制展示给模型的历史中的错误率来对此进行测试。随着历史中的错误率升高，他们观察到后续步骤的准确率急剧下降，这验证了模型会进行自我条件设定。

作者表明，除了先前已发现的长上下文问题外，self-conditioning设定还会导致模型在长程任务中的性能下降，而且与长上下文问题不同的是，这种性能下降并不会通过增大模型规模而得到缓解。

3、思考的影响

作者发现近期的思考模型不会受到先前错误的影响，能够修正self-conditioning限制。此外，顺序测试时计算量（sequential test time compute）的显著提升了模型在单轮对话中可完成任务的长度。在没有思维链（CoT）的情况下，像DeepSeek V3这样的前沿大语言模型甚至连两步执行都无法完成，而其具备思考能力的版本R1则能执行200步，这凸显了行动前进行推理的重要性。

作者对前沿思考模型进行了基准测试，发现GPT-5的思考版本（代号Horizon）能够执行超过1000步，远超紧随其后的竞争对手——能执行432步的Claude-4-Sonnet。

LLM能力的“参差不齐”既令人着迷又让人困惑。与传统机器不同，大语言模型在执行重复性任务时更容易出现故障。因此，作者认为，长任务中的执行失败不应被误解为缺乏推理或规划能力。他们发现，通过扩大模型规模和增加顺序测试时间的计算量，模型长程执行能力会得到显著提升。如果一个模型能够完成的任务长度表明其经济价值，那么持续投入以增加计算量可能是值得的，即便短任务基准测试给人一种进展放缓的错觉。

大模型的长程任务执行：收益递减的幻象与指数级增长的可能 Scaling Law 收益递减长程任务执行 LLM 第3张