当前网络搜索智能体的表现时常不尽如人意,即便投入海量数据进行训练,性能提升仍有限。香港科技大学与MiniMax团队指出症结所在:并非模型参数不足,而是缺乏具有足够挑战性的训练数据。
换言之,单纯记忆已不够用,智能体需要应对更贴近实际的“真题”考验。为此,他们提出了名为WebExplorer的高质量问答对构建方法。
利用该方法生成的数据集进行训练,即便是较小规模的模型,也能在复杂、长程的搜索任务中超越参数量更大的模型。
训练后的8B模型支持高达128K的上下文长度和100次工具调用轮次的长期推理,在参数量低于10B的模型中取得了领先成果。
行业观察者评价:这种模型驱动的探索方式,相较于传统图谱方法,能显著增强智能体浏览行为的灵活性。
模型及相关数据集均已开源,详细链接见文末。
随着大语言模型的快速发展,智能体的能力边界不断扩展。网络搜索智能体作为重要组成部分,能够自主从广泛的在线资源中检索信息;长视野网络智能体则需要在多个网站间进行复杂的推理与搜索。
然而,现有开源网络智能体在处理复杂搜索任务时能力有限,而更强大的商业模型又缺乏透明的训练细节。
研究团队强调,开发高性能网络搜索智能体的关键在于提升训练数据质量。当前的评测基准已发展至极其困难的水平:例如,在BrowseComp-en基准测试中,超过一半的问题连人类标注者都无法在两小时内解决。虽然这类难题在日常应用中较少见,但构建高质量、高难度的问答对,对于实现超越人类水平的信息搜索智能体至关重要。
不过,现有常见方法存在局限性,可能导致查询表达不自然且合成灵活性不足。
针对上述问题,研究团队提出了创新的两阶段方法WebExplorer——采用探索-演化框架,创建需要多步推理和复杂网络导航的高难度问答对。
该框架的第一阶段是模型驱动的探索,使模型能更自主灵活地探索信息空间。具体来说,从种子实体开始,系统利用强大的语言模型,通过迭代搜索和浏览操作模拟图构建过程。这种方法能够动态探索与种子实体相关的信息空间,并在此基础上构建初步问答对。
由于初步问答对相对简单,WebExplorer引入了第二阶段的迭代查询演化过程。这一阶段通过系统移除明确线索并引入战略性模糊化,来提升查询难度。
简而言之,该方法采用“从长到短”的演化策略,通过以下三个方向优化查询:
1、移除显著信息:去掉过于明显的提示;
2、引入战略性模糊化:对日期、地点和专有名词等具体细节进行模糊处理;
3、寻找替代描述:用模糊的描述符替换原始的明确引用。
例如,一个初始查询如“这位球员44岁时去世”,经演化后变为模糊描述“这位球员于中年去世”,需要更多探索性搜索才能找到正确答案。
通过这个探索-演化过程,研究团队构建了WebExplorer-QA数据集,包含约4万个演化后的最终问答对。
为验证数据质量,他们使用Claude-4-Sonnet模型进行了全面比较分析。上图为工具调用次数分布的比较:左边显示初始问答对与演化问答对,右边显示演化问答对与BrowseComp-en。可见,演化过程有效增加了解决问题所需的工具调用次数。
演化效果显著:强性能商业模型的准确率从86.6%大幅下降至67.1%,而平均工具调用次数从7.9次显著增加至9.9次。这表明演化过程成功创建了需要广泛多步推理和探索的复杂查询。
研究团队使用WebExplorer-QA数据集,通过监督微调加强化学习的经典训练方法,训练出8B规模的WebExplorer-8B。该模型在多个信息搜索基准测试中取得了同等规模下的最先进性能。
WebExplorer-8B基于Qwen3-8B模型训练,实现了支持128K上下文长度和100次工具调用的长视野推理。
尽管只有8B参数,WebExplorer-8B在多个基准测试中持续超越了更大的开源模型。
WebExplorer-8B在强化学习训练后能够平均高效搜索16轮,在BrowseComp-en/zh上实现了比WebSailor-72B更高的准确率,并在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能。
此外,尽管WebExplorer的问答对合成方法受BrowseComp-en启发,但该模型在不同基准测试和领域中都展现出有效的泛化能力。即使训练数据不专注于STEM领域,在学术前沿基准HLE上也取得了17.3%的成绩,超越了之前的32B模型,进一步验证了方法的稳健性和可转移性。
研究团队表示,WebExplorer方法为训练高级网络智能体提供了一条实用路径。证明了通过精心设计的数据合成方法和训练策略,较小模型可以在复杂任务上超越更大模型。这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义。
网友评价:这种方法看起来极具前景。
您如何看待这一进展?
参考链接:https://x.com/WenhuChen/status/1965537550937792934
论文地址:https://arxiv.org/abs/2509.06501
Github:https://github.com/hkust-nlp/WebExplorer
模型:https://huggingface.co/hkust-nlp/WebExplorer-8B
数据集:https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA
本文由主机测评网于2025-12-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251214060.html