当前位置:首页 > 科技资讯 > 正文

斯坦福与MIT联合推出ReCAP:新型AI智能体推理框架,显著提升长上下文任务性能

来自斯坦福大学和麻省理工学院的研究团队近日发布了一种创新的AI智能体推理框架——ReCAP,其在处理长上下文任务时全面超越了当前主流的ReAct框架,实现了显著的性能突破。ReCAP采用独特的递归树结构,并结合三大核心机制,成功解决了大语言模型在复杂任务中普遍遭遇的目标漂移、上下文断层以及成本爆炸等难题。在多项基准测试中,ReCAP均取得了大幅领先的成绩,展现出强大的通用性和稳定性。尽管计算成本略有上升,但其在关键任务中的卓越表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架问世以来,AI智能体推理领域迎来了百花齐放的局面,各种复杂架构层出不穷。

然而,这些架构大多短暂流行,由于其结构复杂,在更换评测基准时需要大幅修改示例,稳定性和泛化能力远不及ReAct。这使得ReAct在过去三年中,一直作为该领域事实上的主流标杆。

那么,我们真的无法再进一步了吗?

面对大模型在处理长上下文任务时容易忘记短期记忆的顽疾,业界是否只能止步不前?

来自斯坦福大学与MIT的研究团队给出了肯定的答案,他们正式发布了AI Agent推理新框架——ReCAP(递归上下文感知推理与规划),从真正意义上实现了序列推理和层级推理的统一,在多种任务中全面超越了ReAct,并继承了ReAct示例简单、通用性高以及即插即用的优点。

斯坦福与MIT联合推出ReCAP:新型AI智能体推理框架,显著提升长上下文任务性能 ReCAP  AI智能体推理 长上下文任务 ReAct 第1张

论文链接:https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1(一次通过)的评测原则下,ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%(同步)和112.5%(异步)的巨大性能提升。

长上下文任务的三大「命门」

研究团队指出,当前大语言模型在执行复杂任务时普遍存在三个问题:

  • 目标漂移(Goal Drift):执行几步后逐渐遗忘原始目标,导致最终结果与预期不符。
  • 上下文断层(Context Loss):高层的规划信息在长序列执行过程中丢失,造成高层思考与低层执行脱节。
  • 成本爆炸(Prompt Explosion):每次递归都需要重新展开上下文示例和提示词,使得推理成本呈指数级增长。

斯坦福与MIT联合推出ReCAP:新型AI智能体推理框架,显著提升长上下文任务性能 ReCAP  AI智能体推理 长上下文任务 ReAct 第2张

简单来说,LLM就像一个短期记忆型天才,而现有的主流推理框架各有短板:

  • 序列推理(例如Chain of Thoughts,ReAct)虽然能保持上下文连贯,但常常因任务过长而出现目标漂移;
  • 层级推理(例如ADaPT,THREAD)通过将任务分解为子任务来明确目标,但为每个子任务单独分配上下文示例和提示词,导致上下文断层和成本爆炸。

ReCAP:有机融合序列推理与层级推理

斯坦福与MIT联合推出ReCAP:新型AI智能体推理框架,显著提升长上下文任务性能 ReCAP  AI智能体推理 长上下文任务 ReAct 第3张

ReCAP的核心在于引入一个带有记忆和反馈的递归树结构作为模型的工作记忆区,其三大机制环环相扣:

  • 计划前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一个完整的子任务列表,但仅执行第一个子任务,完成后再动态优化后续计划。
  • 结构化父任务再注入(Consistent Multi-level Context and Structured Injection):整个执行流程只有一个上下文,由所有任务共享。每次子任务递归返回时,父任务会将自身的思考和计划再次注入上下文,使得父任务在重新计划时可以借鉴之前的思维和执行结果,从而规划出真正能达成任务目标的底层操作。
  • 滑动窗口记忆(Sliding Window and Scalable Memory Efficiency):通过滑动窗口机制,在统一上下文中只保留最新的关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸。

实验结果:长上下文任务性能大幅跃升

斯坦福与MIT联合推出ReCAP:新型AI智能体推理框架,显著提升长上下文任务性能 ReCAP  AI智能体推理 长上下文任务 ReAct 第4张

团队在多个典型长上下文推理基准上验证了ReCAP的效果。结果令人振奋:

  • 在Robotouille(同步)上取得70%成功率,较ReAct(38%)提升84.2%
  • 在Robotouille(异步)上取得53%成功率,较ReAct(24%)提升112.5%
  • 在ALFWorld上取得91%成功率,稳定优于ReAct(84%)
  • 在SWE-bench Verified取得44.8%的成功率,优于ReAct基线(39.58%)

值得关注的是,团队在实验中始终坚持pass@1的实验原则,即不使用样本层面的重试、多数投票或束搜索。这意味着ReCAP能在真实的多步环境中更好地保持目标一致性与执行连贯性——不仅「想得对」,还能「做得稳」。

ReCAP是除ReAct之外,又一个能够在具身推理以及代码编辑这两种截然不同的任务上都取得稳健表现的通用推理架构。

论文中排除了THREAD、Reflexion等其他基线,因为它们在实验设置中难以稳定复现或与pass@1协议不兼容,这进一步凸显了ReCAP作为新一代通用推理基线的潜力。

优势与成本的权衡

任何强大的能力都伴随着成本。团队对此进行了透明分析:ReCAP的总计算成本约为ReAct的三倍。这主要源自其核心的计划前瞻分解机制所需的额外LLM调用。

然而,考虑到它在关键任务上带来的性能巨幅提升与目标一致性,这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。

递归,是通往通用智能的钥匙?

从人类思维到图灵机,递归始终是智能的底层逻辑。ReCAP的提出,可视为AI迈向通用推理系统的关键一步。

其潜力远不止于论文所验证的任务范畴。任何依赖复杂决策回路与长期上下文记忆的大型任务,都是ReCAP的理想应用场景。

例如在深度研究中自主遍历文献、整合多源信息并生成洞察报告;或在复杂软件工程中管理庞大代码库与依赖关系,推进需多步验证的系统项目。

长远来看,ReCAP的递归规划能力可以与空间智能相结合,解决更为复杂的现实世界问题。李飞飞教授近日指出,空间智能——即理解、推理并与三维世界交互的能力,是AI的下一个前沿。

ReCAP可以为具身智能机器人规划复杂的长期任务序列,而空间智能模型则负责处理实时感知与动作控制,二者结合实现机器人在动态环境中的自主规划与可靠执行。

随着代码的开源,一个更擅长长期规划、稳健执行的AI时代或许即将到来。

作者介绍

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均为斯坦福大学工程学院计算机系硕士研究生

Alex Pentland教授,麻省理工学院媒体实验室 创始人之一,美国国家工程院院士,Toshiba Professor at MIT,斯坦福大学 HAI Fellow。

Jiaxin Pei博士,斯坦福大学博士后研究员,研究兴趣集中在大语言模型、人机交互、Agentic AI,即将前往得克萨斯大学奥斯汀分校任教。

参考资料

https://arxiv.org/pdf/2510.23822