当前位置:首页 > 科技资讯 > 正文

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破

近期,学术界热议“微调已死”的观点,引发了广泛讨论。

来自斯坦福大学、SambaNova和UC 伯克利的研究人员提出了一项名为Agentic Context Engineering(智能体/主动式上下文工程)的技术,使语言模型无需传统微调即可实现自我优化!

实际上,谷歌早前在论文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中提出了类似概念——ReasoningBank,这是一种用于智能体系统的创新记忆框架,能从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需依赖真实标签

如图1所示,利用ReasoningBank不仅能捕捉成功中的有效策略,还能从失败中提取关键预防教训,将这些内容抽象为一系列可操作原则。该过程以闭环方式运行:面对新任务时,智能体从ReasoningBank中检索相关记忆指导行动;随后,新经验被分析、提炼并整合回ReasoningBank,使智能体持续进化并提升战略能力。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第1张

通过将ReasoningBank作为强大经验学习者,谷歌探索了经验扩展,以建立记忆与测试时扩展之间的协同效应。谷歌并未通过增加任务数量来扩展经验广度,而是通过深入探索单个任务来扩展经验深度。

此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下应用,通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆。

最终,在记忆与测试时扩展之间实现协同效应:高质量记忆引导扩展至更有前景路径,而丰富经验进一步锤炼出更强记忆。这种正反馈循环使基于记忆的经验扩展成为智能体的新维度。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第2张

论文地址:https://arxiv.org/pdf/2509.25140

 

对于谷歌开发的这种能实时从自身错误中学习的AI,网友普遍表示看好。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第3张

方法概览

下图展示ReasoningBank整体框架,其中经验被提炼为结构化记忆项,包含标题、描述和内容。对于每个新任务,智能体检索相关项与环境互动,并从成功和失败轨迹中构建新记忆项。这些记忆项随后整合到ReasoningBank中,形成闭环记忆过程。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第4张

ReasoningBank包含以下关键组件:

记忆结构。ReasoningBank中的记忆项是从过去经验中设计和提炼的结构化知识单元,它们抽象了低级执行细节,同时保留可转移推理模式和策略。每个记忆项包含三部分:(i) 标题,作为简洁标识符总结核心策略或推理模式;(ii) 描述,提供记忆项的一句话总结;(iii) 内容,记录从过去经验中提炼的推理步骤、决策理由或操作见解。提取的记忆项兼具人类可理解性和机器可用性,促进高效使用和智能体集成。

ReasoningBank与智能体的集成。配备ReasoningBank的智能体可从精心挑选的可转移策略池中汲取经验指导决策,使其能回忆有效见解、避免已知陷阱并更稳健适应未见查询。集成过程分三步:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。

MaTTS:记忆感知的测试时扩展。ReasoningBank与测试时扩展的直接结合如图3(a)所示,更多轨迹被独立转换为更多记忆项。但基础方法不理想,因未利用同一问题上冗余探索产生的对比信号,限制了测试时扩展的性能优势。为此,谷歌提出MaTTS,它是测试时扩展与ReasoningBank的全新集成。MaTTS刻意从扩展过程中生成的大量成功和失败轨迹中学习,以更有效策划记忆。谷歌为MaTTS设计两种互补实现方式:并行扩展和顺序扩展,如图3(b)和3(c)所示。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第5张

并行扩展。在并行设置中,谷歌在检索记忆项指导下为同一查询生成多个轨迹。通过比较不同轨迹,智能体可识别一致推理模式并过滤虚假解决方案。该过程通过单查询多次试验促进多样化探索,实现更可靠记忆策划。

顺序扩展。在顺序扩展中,谷歌在初步完成后迭代完善单一轨迹内推理,遵循自我精炼原则。自我精炼中生成的中间笔记也用作宝贵记忆信号,因它们捕捉了推理尝试、修正和见解,这些可能未出现在最终解决方案中。

实验结果

谷歌在挑战性基准测试上进行了广泛实验,包括网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。

表1、2、3分别展示ReasoningBank在WebArena、Mind2Web和SWE-Bench-Verified上的评估结果,表明其在有效性(相对提升高达34.2%)和效率(减少16.0%交互步骤)上均优于基准方法。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第6张

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第7张

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第8张

特别地,ReasoningBank与MaTTS协同效果最佳,使其成为基于记忆的经验扩展关键组成部分。谷歌在Webarena-Shopping子集上实验MaTTS与Gemini-2.5-flash结合。默认MaTTS集成ReasoningBank,但也可使用其他记忆机制。

为研究整体扩展效果,谷歌进行了以下基准测试:(i) 无记忆机制的MaTTS(MaTTS w/o memory),代表无记忆扩展设置;(ii) 无聚合的MaTTS(MaTTS w/o aggregation);(iii) MaTTS,展示与扩展因子k相关效果。注意,k=1为无扩展设置。

结果如图4所示,表明并行扩展和顺序扩展均能提升性能。

AI智能体自我进化新纪元:ReasoningBank记忆框架实现无监督学习突破 ReasoningBank  智能体 记忆框架 测试时扩展 第9张

更多实验结果请参阅原论文。