赋予大语言模型(LLM)浏览工具的能力,可以极大提升其在作为深度搜索智能体(Agent)解决复杂现实世界任务的潜力。
然而,由于使用浏览工具进行长程推理的能力有限,且缺乏足够难度的监督数据,开源LLM在此类场景下的表现仍然不尽如人意。
为了推动深度搜索Agent的发展,来自清华大学和东北大学的研究团队提出了DeepDive。该方法通过结合知识图谱(KG)的自动化数据合成与端到端的多轮RL,创建具备复杂长程推理和网页浏览能力的Agent。
论文链接:https://arxiv.org/abs/2509.10446
实验显示,基于该方法训练的DeepDive-32B在BrowseComp测试中取得了14.8%的准确率。这证明了在深度搜索中,工具调用和并行采样的测试时间扩展是有效的。
图|左:DeepDive-32B在BrowseComp上的表现优于开源深度搜索模型和专有模型;中:DeepDive通过最大化工具调用来驱动模型的深度搜索能力,从而提高其在BrowseComp上的性能;右:多轮RL持续增强DeepDive-32B在4个深度搜索基准上的表现。
此外,除了上述方法和数据,研究团队还开源了一项关于半自动独立同分布(i.i.d.)深度搜索问答合成的附加研究。仅使用这项研究中的数据,DeepDive-32B在BrowseComp上的准确率可以进一步提升至22.2%。
值得一提的是,这些自动生成的知识图谱数据和半自动i.i.d.数据,帮助GLM-4.5系列开源模型在BrowseComp测试中取得了出色的表现。
最后,所有DeepDive数据集、模型和代码均已在GitHub上开源。
(地址:https://github.com/THUDM/DeepDive)
深度搜索Agent需要通过分析数百个在线资源进行推理和检索以定位复杂且难以获取的信息。然而,开源模型在深度搜索Agent方面与OpenAI DeepResearch等专有LLM存在显著差距。
研究团队认为,这一差距源于难以获取的数据资源匮乏以及缺乏多轮RL训练机制。数据层面,现有大多数问答数据集通常包含相对简单的提问,难以真实反映“疑难案例”;在训练方法上,如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题;此外,现有的集成浏览工具的搜索或浏览Agent主要针对直接搜索任务进行设计。
DeepDive旨在提升深度搜索Agent的长期信息检索能力。通过数据构建与RL两大技术模块实现突破。他们开发了一种策略,能够自动从开放知识图谱中生成难以发现的查询问题,并运用端到端多轮RL技术通过深度搜索增强语言模型的长程推理能力。
在数据层面,要构建深度搜索Agent其训练数据必须突破传统多跳问答的局限。
知识图谱天然具备结构化且语义丰富的环境为多跳推理提供支持这使其特别适合生成训练深度搜索Agent所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集来解决问答数据集缺乏难度的问题。
图|用于DeepDive的知识图谱自动化问答数据合成。通过在知识图谱上执行随机游走自动构建深度搜索问答对然后使用LLM对其进行混淆。
在训练方法方面他们采用端到端多轮RL来整合推理与搜索工具的使用。运用多轮GRPO算法进行端到端RL其中LLM与网络环境交互并根据构建的问答数据集中的最终答案获取奖励。
图|多轮RL概述用于训练DeepDive的推理和深度搜索能力。
为进一步提升部署效率并确保正样本的有效性他们还引入了提前退出机制:当模型在任何步骤中出现格式错误时轨迹生成将立即终止并赋予 0 分奖励。这种机制确保所有获得正向奖励的轨迹既无错误又完全可靠从而显著增强了多轮次工具使用的鲁棒性。
研究团队通过Bro-wseComp、BrowseComp-ZH等 4 个公开且具有挑战性的深度搜索基准对DeepDive进行评估并将DeepDive与多类模型进行对比。结果如下:
表|深度搜索问答基准评测结果。准确率(%)为报告数据。*表示现有研究的报告性能。†表示通过函数调用实现浏览功能。
图|训练奖励(a)和在BrowseComp-266上的评估准确率(b)以及在训练和评估过程中的平均工具调用次数(c)展示了强化学习(RL)如何逐步培养出更深层次的搜索策略。
图|DeepDive在简单搜索基准上的泛化效果。†表示通过函数调用来实现浏览功能。
以上结果表明复杂的监督和多轮强化学习共同为工具使用奠定了基础模型的性能会随着工具调用预算和并行采样的增加而提升并且在解决复杂问题时习得的技能可以迁移到更简单的场景中。
当然DeepDive并非完美依然存在一些局限性。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441709.html