当前位置：首页 > 科技资讯 > 正文

DeepDive：突破深度搜索Agent的局限

主机测评网
科技资讯
2026-04-30
720

赋予大语言模型（LLM）浏览工具的能力，可以极大提升其在作为深度搜索智能体（Agent）解决复杂现实世界任务的潜力。

然而，由于使用浏览工具进行长程推理的能力有限，且缺乏足够难度的监督数据，开源LLM在此类场景下的表现仍然不尽如人意。

为了推动深度搜索Agent的发展，来自清华大学和东北大学的研究团队提出了DeepDive。该方法通过结合知识图谱（KG）的自动化数据合成与端到端的多轮RL，创建具备复杂长程推理和网页浏览能力的Agent。

DeepDive：突破深度搜索Agent的局限 DeepDive 深度搜索Agent 知识图谱多轮RL 第1张

论文链接：https://arxiv.org/abs/2509.10446

实验显示，基于该方法训练的DeepDive-32B在BrowseComp测试中取得了14.8%的准确率。这证明了在深度搜索中，工具调用和并行采样的测试时间扩展是有效的。

DeepDive：突破深度搜索Agent的局限 DeepDive 深度搜索Agent 知识图谱多轮RL 第2张

图｜左：DeepDive-32B在BrowseComp上的表现优于开源深度搜索模型和专有模型；中：DeepDive通过最大化工具调用来驱动模型的深度搜索能力，从而提高其在BrowseComp上的性能；右：多轮RL持续增强DeepDive-32B在4个深度搜索基准上的表现。

此外，除了上述方法和数据，研究团队还开源了一项关于半自动独立同分布（i.i.d.）深度搜索问答合成的附加研究。仅使用这项研究中的数据，DeepDive-32B在BrowseComp上的准确率可以进一步提升至22.2%。

DeepDive：突破深度搜索Agent的局限 DeepDive 深度搜索Agent 知识图谱多轮RL 第3张

值得一提的是，这些自动生成的知识图谱数据和半自动i.i.d.数据，帮助GLM-4.5系列开源模型在BrowseComp测试中取得了出色的表现。

最后，所有DeepDive数据集、模型和代码均已在GitHub上开源。

（地址：https://github.com/THUDM/DeepDive）

DeepDive是如何炼成的？

深度搜索Agent需要通过分析数百个在线资源进行推理和检索以定位复杂且难以获取的信息。然而，开源模型在深度搜索Agent方面与OpenAI DeepResearch等专有LLM存在显著差距。

研究团队认为，这一差距源于难以获取的数据资源匮乏以及缺乏多轮RL训练机制。数据层面，现有大多数问答数据集通常包含相对简单的提问，难以真实反映“疑难案例”；在训练方法上，如何有效结合长程推理与深度搜索工具的使用仍是一个未解难题；此外，现有的集成浏览工具的搜索或浏览Agent主要针对直接搜索任务进行设计。

DeepDive旨在提升深度搜索Agent的长期信息检索能力。通过数据构建与RL两大技术模块实现突破。他们开发了一种策略，能够自动从开放知识图谱中生成难以发现的查询问题，并运用端到端多轮RL技术通过深度搜索增强语言模型的长程推理能力。

在数据层面，要构建深度搜索Agent其训练数据必须突破传统多跳问答的局限。

知识图谱天然具备结构化且语义丰富的环境为多跳推理提供支持这使其特别适合生成训练深度搜索Agent所需的监督数据。他们通过从知识图谱中自动生成深度搜索问答数据集来解决问答数据集缺乏难度的问题。

DeepDive：突破深度搜索Agent的局限 DeepDive 深度搜索Agent 知识图谱多轮RL 第4张