当前位置:首页 > 科技资讯 > 正文

ReCAP:斯坦福与MIT共推AI推理新框架,性能超越ReAct

斯坦福大学和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP,在多项基准测试中,ReCAP均取得了大幅领先的成绩,展现了强大的通用性和稳定性。

自2022年ReAct框架提出以来,AI智能体推理领域迎来了百花齐放的新时代,各种复杂架构层出不穷。

然而,这些架构大多因过于复杂而在更换评测基准时需要大幅修改示例,导致表现远不如ReAct稳定泛用。这也使得ReAct在过去三年中,成为了该领域的主流与标杆。

但面对大模型在长上下文任务中易产生短期记忆问题的挑战,ReCAP的发布无疑为行业带来了新的希望。

ReCAP通过独特的递归树结构和三大机制,成功解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。其性能在多项基准测试中均取得了显著优势。

ReCAP:斯坦福与MIT共推AI推理新框架,性能超越ReAct ReCAP  AI推理 框架 性能提升 第1张

论文链接:https://arxiv.org/pdf/2510.23822

在严格遵循pass@1的评测原则下,ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%(同步)和112.5%(异步)的巨大性能提升。

长上下文任务的三大挑战

团队指出,当今大语言模型在执行复杂任务时普遍面临以下三大问题:

  • 目标漂移:执行几步后就逐渐忽略了原本的目标,导致执行结果与期望不符。
  • 上下文断层:高层的规划信息在长序列执行中丢失,导致高层思考与低层执行不协调。
  • 成本爆炸:每次递归都重新铺开上下文示例和提示词,推理成本指数增长。

ReCAP:斯坦福与MIT共推AI推理新框架,性能超越ReAct ReCAP  AI推理 框架 性能提升 第2张

简单说,LLM就像一个短期记忆型天才,而主流推理框架各有局限。

  • 序列推理(例如Chain of Thoughts,ReAct)虽然上下文连贯,但任务过长易导致目标漂移。
  • 层级推理(例如ADaPT,THREAD)将任务分解为子任务来明确目标,但易导致上下文断层和成本爆炸。

ReCAP:融合序列与层级推理的利器

ReCAP:斯坦福与MIT共推AI推理新框架,性能超越ReAct ReCAP  AI推理 框架 性能提升 第3张

ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区。其三大机制环环相扣:

  • 计划前瞻分解:模型首先生成一个完整的子任务列表,但只执行第一个子任务,完成后再动态优化后续计划。
  • 结构化父任务再注入:整个执行流程只有一个上下文,由所有任务共享。每次子任务递归返回时,父任务会重新注入上下文。
  • 滑动窗口记忆:通过滑动窗口机制,在统一上下文中只保留最新关键历史。

实验结果:性能显著提升

ReCAP:斯坦福与MIT共推AI推理新框架,性能超越ReAct ReCAP  AI推理 框架 性能提升 第4张

团队在多个基准上验证了ReCAP的效果。结果令人瞩目:

  • 在Robotouille(同步)上取得70%成功率,较ReAct提升84.2%。
  • 在Robotouille(异步)上取得53%成功率,较ReAct提升112.5%。
  • 在ALFWorld上取得91%成功率,稳定优于ReAct。

优势与成本的权衡

任何强大的能力都伴随着成本。团队指出,ReCAP的总计算成本约为ReAct的三倍。这主要来自于其核心的计划前瞻分解机制所额外需要的LLM调用。

然而,考虑到其在关键任务上带来的性能提升与目标一致性,这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。