当前位置：首页 > 科技资讯 > 正文

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破

主机测评网
科技资讯
2026-01-08
542

近期，学术界热议“微调已死”的观点，引发了广泛讨论。

来自斯坦福大学、SambaNova和UC 伯克利的研究人员提出了一项名为Agentic Context Engineering（智能体/主动式上下文工程）的技术，使语言模型无需传统微调即可实现自我优化！

实际上，谷歌早前在论文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中提出了类似概念——ReasoningBank，这是一种用于智能体系统的创新记忆框架，能从智能体自身判断的成功和失败经验中提炼并组织记忆项，无需依赖真实标签。

如图1所示，利用ReasoningBank不仅能捕捉成功中的有效策略，还能从失败中提取关键预防教训，将这些内容抽象为一系列可操作原则。该过程以闭环方式运行：面对新任务时，智能体从ReasoningBank中检索相关记忆指导行动；随后，新经验被分析、提炼并整合回ReasoningBank，使智能体持续进化并提升战略能力。

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破 ReasoningBank 智能体记忆框架测试时扩展第1张

通过将ReasoningBank作为强大经验学习者，谷歌探索了经验扩展，以建立记忆与测试时扩展之间的协同效应。谷歌并未通过增加任务数量来扩展经验广度，而是通过深入探索单个任务来扩展经验深度。

此外，谷歌引入了记忆感知的测试时扩展（MaTTS），在并行和顺序设置下应用，通过生成多样化探索提供对比信号，使ReasoningBank能合成更具普遍性的记忆。

最终，在记忆与测试时扩展之间实现协同效应：高质量记忆引导扩展至更有前景路径，而丰富经验进一步锤炼出更强记忆。这种正反馈循环使基于记忆的经验扩展成为智能体的新维度。

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破 ReasoningBank 智能体记忆框架测试时扩展第2张

论文地址：https://arxiv.org/pdf/2509.25140

对于谷歌开发的这种能实时从自身错误中学习的AI，网友普遍表示看好。

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破 ReasoningBank 智能体记忆框架测试时扩展第3张

方法概览

下图展示ReasoningBank整体框架，其中经验被提炼为结构化记忆项，包含标题、描述和内容。对于每个新任务，智能体检索相关项与环境互动，并从成功和失败轨迹中构建新记忆项。这些记忆项随后整合到ReasoningBank中，形成闭环记忆过程。

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破 ReasoningBank 智能体记忆框架测试时扩展第4张

ReasoningBank包含以下关键组件：

记忆结构。ReasoningBank中的记忆项是从过去经验中设计和提炼的结构化知识单元，它们抽象了低级执行细节，同时保留可转移推理模式和策略。每个记忆项包含三部分：(i) 标题，作为简洁标识符总结核心策略或推理模式；(ii) 描述，提供记忆项的一句话总结；(iii) 内容，记录从过去经验中提炼的推理步骤、决策理由或操作见解。提取的记忆项兼具人类可理解性和机器可用性，促进高效使用和智能体集成。

ReasoningBank与智能体的集成。配备ReasoningBank的智能体可从精心挑选的可转移策略池中汲取经验指导决策，使其能回忆有效见解、避免已知陷阱并更稳健适应未见查询。集成过程分三步：(i) 记忆检索，(ii) 记忆构建，(iii) 记忆整合。

MaTTS：记忆感知的测试时扩展。ReasoningBank与测试时扩展的直接结合如图3(a)所示，更多轨迹被独立转换为更多记忆项。但基础方法不理想，因未利用同一问题上冗余探索产生的对比信号，限制了测试时扩展的性能优势。为此，谷歌提出MaTTS，它是测试时扩展与ReasoningBank的全新集成。MaTTS刻意从扩展过程中生成的大量成功和失败轨迹中学习，以更有效策划记忆。谷歌为MaTTS设计两种互补实现方式：并行扩展和顺序扩展，如图3(b)和3(c)所示。

AI智能体自我进化新纪元：ReasoningBank记忆框架实现无监督学习突破 ReasoningBank 智能体记忆框架测试时扩展第5张