当前位置：首页 > 科技资讯 > 正文

AI自学新突破：智能体无需微调，通过自我进化提升性能

主机测评网
科技资讯
2026-05-04
795

近期，关于「微调已死」的讨论在学术圈内掀起广泛关注。

斯坦福大学、SambaNova与UC伯克利合作发表了一篇论文，介绍了一种名为Agentic Context Engineering（智能体/主动式上下文工程）的技术，该技术让语言模型无需微调就能实现自我提升。

事实上，更早之前，谷歌的一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文就提出了一个类似的概念——ReasoningBank，这是一种用于智能体系统的创新记忆框架，它能够从智能体自身的成功和失败经验中提炼并组织记忆项，而无需依赖真实标签。

如图1所示，利用ReasoningBank不仅可以捕捉成功中的有效策略，还能从失败中提取重要的预防教训，将这些内容抽象成一系列可操作的原则。这一过程在一个闭环中运行：面对新任务时，智能体从ReasoningBank中检索相关记忆来指导其行动。随后，新的经验被分析、提炼并重新整合回ReasoningBank，使智能体得以不断进化并提升其战略能力。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第1张

谷歌通过ReasoningBank作为强大的经验学习者，研究了经验扩展，以建立记忆与测试时扩展之间的强大协同效应。不同于通过增加更多任务来扩展经验广度的方法，谷歌选择深入探索每个单一任务来扩展经验的深度。

此外，谷歌引入了记忆感知的测试时扩展（MaTTS），在并行和顺序设置下都进行了应用。通过生成多样的探索来提供对比信号，使ReasoningBank能够合成更具普遍性的记忆。

最终，在记忆与测试时扩展之间实现了协同效应：高质量的记忆将扩展引导到更有前景的路径，而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第2张

论文地址：https://arxiv.org/pdf/2509.25140

对于谷歌开发的这种能实时从自身错误中学习的AI，网友纷纷表示看好。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第3张

方法概览

下图为ReasoningBank整体框架，其中经验被提炼成结构化的记忆项，包含标题、描述和内容。对于每个新任务，智能体从中检索相关项与环境互动，并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到ReasoningBank中，形成一个闭环的记忆过程。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第4张

ReasoningBank包含以下几个关键组件：

记忆结构。ReasoningBank中的记忆项是从过去的经验中设计和提炼出的结构化知识单元，它们抽象了低级执行细节，同时保留了可转移的推理模式和策略。每个记忆项包含三个部分：(i) 标题，作为简洁的标识符，总结核心策略或推理模式；(ii) 描述，提供记忆项的简短一句话总结；(iii) 内容，记录从过去经验中提炼出的推理步骤、决策理由或操作见解。这些记忆项既具有人类可理解性，又具备机器可用性，有助于高效使用和与智能体的集成。

ReasoningBank与智能体的集成。配备ReasoningBank的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解，避免以前观察到的陷阱，并更稳健地适应未见过的查询。集成过程分为三个步骤：(i) 记忆检索，(ii) 记忆构建，(iii) 记忆整合。

MaTTS：记忆感知的测试时扩展。ReasoningBank与测试时扩展的直接结合如图3(a)所示，其中更多的轨迹被独立地转换为更多的记忆项。不过，这种基础方法并不理想，因为它没有利用来自同一问题上冗余探索所产生的对比信号，这限制了测试时扩展所带来的性能优势。为此，谷歌提出了MaTTS，它是测试时扩展与ReasoningBank的全新集成。与基础方法不同，MaTTS刻意从扩展过程中生成的大量成功和失败轨迹中学习，以便更有效地策划记忆。谷歌为MaTTS设计了两种互补的实现方式：并行扩展和顺序扩展，如图3(b)和3(c)所示。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第5张

并行扩展。在并行设置中，谷歌在检索到的记忆项的指导下，为同一查询生成多个轨迹。通过对不同轨迹进行比较，智能体可以识别一致的推理模式，同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索，从而实现更可靠的记忆策划。

顺序扩展。在顺序扩展中，谷歌在初步完成后，迭代地在单一轨迹内完善推理，遵循自我精炼的原则。在这个过程中，自我精炼中生成的中间笔记也被用作宝贵的记忆信号。

实验结果

谷歌在具有挑战性的基准测试上进行了广泛的实验，包括网页浏览（WebArena、Mind2Web）和软件工程（SWE-Bench-Verified）任务。

表1、2、3分别展示了ReasoningBank在WebArena、Mind2Web和SWE-Bench-Verified上的评估结果，表明了在有效性（相对提高高达34.2%）和效率（减少16.0%的交互步骤）上均优于基准方法。

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第6张

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第7张

AI自学新突破：智能体无需微调，通过自我进化提升性能智能体自我进化记忆框架无微调第8张

特别地，ReasoningBank与MaTTS的协同效果最好，使其成为基于记忆的经验扩展的关键组成部分。谷歌在Webarena-Shopping子集上实验了MaTTS与Gemini-2.5-flash的结合。默认下，MaTTS集成了ReasoningBank，但它也可以使用其他记忆机制。

为了研究整体的扩展效果，谷歌进行了以下基准测试：(i) 没有记忆机制的MaTTS（MaTTS w/o memory），这代表了没有记忆机制的扩展设置；(ii) 没有聚合的MaTTS（MaTTS w/o aggregation）；(iii) MaTTS，用于展示与扩展因子k相关的效果。值得注意的是，k=