Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元

主机测评网
科技资讯
2026-04-03
703

人工智能领域在自进化智能体（Agent）技术上取得了突破性成果。

近期，Meta超级智能实验室与伊利诺伊大学厄巴纳-香槟分校（UIUC）共同发布了Dr. Zero 框架。该框架的核心优势在于，它能让 Agent 在完全缺失人工标注数据的情况下，实现高效的自我演进。

根据研究资料显示，该框架有效攻克了多轮搜索 Agent 在无监督进化路径中遭遇的“问题多样性不足”以及“多步推理与工具调用的高昂计算开销”等核心瓶颈。

科研团队创造性地研发了“跳步分组相对策略优化”（HRPO）机制。通过对结构相似的问题进行聚类分析，该机制构建了稳健的群组级评估基准，在确保训练成效的同时，彻底规避了传统自我进化过程中繁琐且昂贵的嵌套采样需求。

实验数据揭示，在处理复杂的问答挑战时，该框架即便没有人工辅助，其性能仍能超越全监督基准模型达 14.1%。这充分印证了搜索增强模型在高级逻辑推理任务中的卓越潜力。

此外，在零人类标注的条件下，凭借精妙的架构规划与奖励引导，智能体展现出了自发性的复杂推理与自主搜索能力。这一发现为解决数据匮乏环境下的模型训练难题开辟了全新的路径。

破解AI自我进化的数据匮乏瓶颈

构建顶尖模型通常依赖于规模庞大且经过精细标注的高质量数据集。尤其在面对逻辑缜密、步骤复杂的搜索任务时，获取精准标注不仅耗时，成本更是居高不下。尽管“自适应语言智能体”的概念由来已久，旨在通过迭代学习优化性能，但现有的主流技术路径仍难以达成真正的自我进化，往往高度依赖人类预设的问题或提示词。这种对人工干预的路径依赖，极大程度上限制了 AI 探索未知领域的能力。

为了打破这一枷锁，学术界开始深耕“无数据自我进化”领域，即通过模型自主产出问题并求解，生成合成训练数据。然而，将这一理论应用于现实场景依然困难重重。

一个理想的进化框架，应促使 AI 在零标注的基础上，通过提议者-解决者协同演进（proposer-solver co-evolution）模式实现能力的螺旋式飞跃。

Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元自进化智能体 Dr. Zero框架 HRPO策略零数据学习第1张

图 | 自适应训练架构示意，展示了如何通过最小化监督迭代来协同训练提议者与解决者。

目前的自进化研究多聚焦于数学或编程等规则封闭、边界清晰的特定领域。在这些场景下，即便数据维度有限，模型依然能取得进展。

但在开放域场景下，挑战倍增。模型往往倾向于生成过于简单的单跳问题，缺乏深度。同时，执行多步推理与操作搜索工具需要海量的计算资源。若仅靠盲目的试错法进行优化，其算力成本将难以承受。

因此，Dr. Zero 的核心使命便是让 AI 在复杂的开放世界中，摆脱对人工数据的依赖，实现高效且高质量的自主进化。

Dr.Zero：一套能够“无中生有”的自进化学习系统

Dr.Zero 不仅仅是单一的模型，它是一套能够自我完善的系统，其核心设计由以下三大支柱构成：

1. 提议者与解决者的共生演进

该框架由两个关键角色驱动——提议者（proposer）与解决者（solver）。两者均由大语言模型驱动，并在训练中共同成长。

Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元自进化智能体 Dr. Zero框架 HRPO策略零数据学习第2张

图｜Dr. Zero 自进化反馈回路。通过解决者的反馈，提议者能够合成具备验证性且极具挑战性的任务，从而持续强化解决者的搜索与推理广度。

提议者的职责是利用外部搜索工具，主动挖掘开放域的深层信息，生成具有多样化结构的问题。随着训练的深入，它会根据奖励信号优化策略，产出更复杂、更难被攻克但结果可验证的题目。

解决者则负责利用搜索引擎检索信息并精准答题。它通过提议者生成的合成数据进行训练，不断精进自身的推理逻辑。当解决者的能力增强时，会进一步倒逼提议者生成更具深度的挑战性问题。

Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元自进化智能体 Dr. Zero框架 HRPO策略零数据学习第3张

图 | 迭代奖励动态演变示意图。基线奖励的动态变化反映了模型间的协同进化机制：一方的进步会提升另一方的挑战阈值，驱动持续的强化学习优化。

2. 跳步分组相对策略优化（HRPO）

算力消耗是自进化过程中的最大拦路虎。传统强化学习（如 GRPO）为了精确评估，通常需要昂贵的“嵌套采样”。HRPO 则巧妙地绕过了这一难题。

HRPO 将逻辑结构相近的问题（如推理步数相似的问题）进行聚类分组，建立组内基准。模型不再需要针对每个提示进行大量重复采样，只需通过与同组问题的表现对比，即可获得精准的策略评估。这一创新显著降低了计算成本，同时保证了训练的高效性。

3. 难度导向的奖励机制

为了确保产出高质量的难题，Dr.Zero 引入了精密的奖励引导设计。

该机制鼓励提议者生成多跳、复杂且具备高难度的查询，同时确保这些问题的答案可以通过搜索引擎进行客观验证。这既保证了问题的挑战性，又避免了生成那些主观且无法评估的无效内容。

通过这种交替优化的循环，Dr.Zero 构建了一个共生反馈体系：随着解决者能力的进化，低难度任务的回报大幅缩减，从而迫使提议者探索更为复杂的推理路径。

零数据进化的奇迹：超越全监督模型

研究团队构建了涵盖单跳与多跳复杂任务的全面基准测试体系，以评估 Dr.Zero 的实战能力。

这包括针对单一事实检索的 NQ 和 TriviaQA 任务，以及对信息综合与连贯推理要求极高的 HotpotQA、MuSiQue 等多跳复杂任务。

Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元自进化智能体 Dr. Zero框架 HRPO策略零数据学习第4张

图 | 不同生成分布下的 Dr. Zero 性能对比曲线。

核心实验结论如下：

1. 性能足以比肩甚至压制监督基线

在经过多轮演进后，Dr. Zero 在多个测试集上的表现与 Search-R1 等使用人工数据训练的监督模型相当。在某些特定任务中，其性能甚至提升了 14.1%，证明了无数据进化的强大鲁棒性。

2. 显著领先于同类无数据方案

相比 SQLM 和 R-Zero 等现有的无数据方法，Dr. Zero 在各项任务中均保持领先，平均性能超越对手达 27.3% 至 39.9%。特别是在复杂的多跳推理中，其优势更为明显。

3. 模型规模带来的红利效应

研究发现，Dr. Zero 具有优秀的扩展性。在 7B 参数规模下，模型在处理 2WikiMQA 等交织度极高的复杂任务时表现尤为惊艳，这意味着更大规模的模型能够更充分地挖掘该框架的自进化潜能。

性价比服务器高防服务器云服务器

本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433329.html

Meta与UIUC联合推出Dr. Zero框架：开启Agent零数据自进化的新纪元

破解AI自我进化的数据匮乏瓶颈