人工智能领域在自进化智能体(Agent)技术上取得了突破性成果。
近期,Meta超级智能实验室与伊利诺伊大学厄巴纳-香槟分校(UIUC)共同发布了Dr. Zero 框架。该框架的核心优势在于,它能让 Agent 在完全缺失人工标注数据的情况下,实现高效的自我演进。
根据研究资料显示,该框架有效攻克了多轮搜索 Agent 在无监督进化路径中遭遇的“问题多样性不足”以及“多步推理与工具调用的高昂计算开销”等核心瓶颈。
科研团队创造性地研发了“跳步分组相对策略优化”(HRPO)机制。通过对结构相似的问题进行聚类分析,该机制构建了稳健的群组级评估基准,在确保训练成效的同时,彻底规避了传统自我进化过程中繁琐且昂贵的嵌套采样需求。
实验数据揭示,在处理复杂的问答挑战时,该框架即便没有人工辅助,其性能仍能超越全监督基准模型达 14.1%。这充分印证了搜索增强模型在高级逻辑推理任务中的卓越潜力。
此外,在零人类标注的条件下,凭借精妙的架构规划与奖励引导,智能体展现出了自发性的复杂推理与自主搜索能力。这一发现为解决数据匮乏环境下的模型训练难题开辟了全新的路径。
构建顶尖模型通常依赖于规模庞大且经过精细标注的高质量数据集。尤其在面对逻辑缜密、步骤复杂的搜索任务时,获取精准标注不仅耗时,成本更是居高不下。尽管“自适应语言智能体”的概念由来已久,旨在通过迭代学习优化性能,但现有的主流技术路径仍难以达成真正的自我进化,往往高度依赖人类预设的问题或提示词。这种对人工干预的路径依赖,极大程度上限制了 AI 探索未知领域的能力。
为了打破这一枷锁,学术界开始深耕“无数据自我进化”领域,即通过模型自主产出问题并求解,生成合成训练数据。然而,将这一理论应用于现实场景依然困难重重。
一个理想的进化框架,应促使 AI 在零标注的基础上,通过提议者-解决者协同演进(proposer-solver co-evolution)模式实现能力的螺旋式飞跃。
图 | 自适应训练架构示意,展示了如何通过最小化监督迭代来协同训练提议者与解决者。
目前的自进化研究多聚焦于数学或编程等规则封闭、边界清晰的特定领域。在这些场景下,即便数据维度有限,模型依然能取得进展。
但在开放域场景下,挑战倍增。模型往往倾向于生成过于简单的单跳问题,缺乏深度。同时,执行多步推理与操作搜索工具需要海量的计算资源。若仅靠盲目的试错法进行优化,其算力成本将难以承受。
因此,Dr. Zero 的核心使命便是让 AI 在复杂的开放世界中,摆脱对人工数据的依赖,实现高效且高质量的自主进化。
Dr.Zero 不仅仅是单一的模型,它是一套能够自我完善的系统,其核心设计由以下三大支柱构成:
该框架由两个关键角色驱动——提议者(proposer)与解决者(solver)。两者均由大语言模型驱动,并在训练中共同成长。
图|Dr. Zero 自进化反馈回路。通过解决者的反馈,提议者能够合成具备验证性且极具挑战性的任务,从而持续强化解决者的搜索与推理广度。
提议者的职责是利用外部搜索工具,主动挖掘开放域的深层信息,生成具有多样化结构的问题。随着训练的深入,它会根据奖励信号优化策略,产出更复杂、更难被攻克但结果可验证的题目。
解决者则负责利用搜索引擎检索信息并精准答题。它通过提议者生成的合成数据进行训练,不断精进自身的推理逻辑。当解决者的能力增强时,会进一步倒逼提议者生成更具深度的挑战性问题。
图 | 迭代奖励动态演变示意图。基线奖励的动态变化反映了模型间的协同进化机制:一方的进步会提升另一方的挑战阈值,驱动持续的强化学习优化。
算力消耗是自进化过程中的最大拦路虎。传统强化学习(如 GRPO)为了精确评估,通常需要昂贵的“嵌套采样”。HRPO 则巧妙地绕过了这一难题。
HRPO 将逻辑结构相近的问题(如推理步数相似的问题)进行聚类分组,建立组内基准。模型不再需要针对每个提示进行大量重复采样,只需通过与同组问题的表现对比,即可获得精准的策略评估。这一创新显著降低了计算成本,同时保证了训练的高效性。
为了确保产出高质量的难题,Dr.Zero 引入了精密的奖励引导设计。
该机制鼓励提议者生成多跳、复杂且具备高难度的查询,同时确保这些问题的答案可以通过搜索引擎进行客观验证。这既保证了问题的挑战性,又避免了生成那些主观且无法评估的无效内容。
通过这种交替优化的循环,Dr.Zero 构建了一个共生反馈体系:随着解决者能力的进化,低难度任务的回报大幅缩减,从而迫使提议者探索更为复杂的推理路径。
研究团队构建了涵盖单跳与多跳复杂任务的全面基准测试体系,以评估 Dr.Zero 的实战能力。
这包括针对单一事实检索的 NQ 和 TriviaQA 任务,以及对信息综合与连贯推理要求极高的 HotpotQA、MuSiQue 等多跳复杂任务。
图 | 不同生成分布下的 Dr. Zero 性能对比曲线。
核心实验结论如下:
1. 性能足以比肩甚至压制监督基线
在经过多轮演进后,Dr. Zero 在多个测试集上的表现与 Search-R1 等使用人工数据训练的监督模型相当。在某些特定任务中,其性能甚至提升了 14.1%,证明了无数据进化的强大鲁棒性。
2. 显著领先于同类无数据方案
相比 SQLM 和 R-Zero 等现有的无数据方法,Dr. Zero 在各项任务中均保持领先,平均性能超越对手达 27.3% 至 39.9%。特别是在复杂的多跳推理中,其优势更为明显。
3. 模型规模带来的红利效应
研究发现,Dr. Zero 具有优秀的扩展性。在 7B 参数规模下,模型在处理 2WikiMQA 等交织度极高的复杂任务时表现尤为惊艳,这意味着更大规模的模型能够更充分地挖掘该框架的自进化潜能。
本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433329.html