当前位置：首页 > 科技资讯 > 正文

DeepAgent与DeepSearch双霸榜单：openJiuwen引领智能体新时代

2026年伊始，人工智能界最炙手可热的是一只名为Clawdbot的小龙虾，但如今它已更名为OpenClaw，尽管更名两次，仍无法阻挡全球对其的热情。人们渴望一个更高级、更通用、更可靠的超级智能体。

过去一年，智能体如雨后春笋般涌现，2025年甚至被称为“AI智能体元年”。衡量智能体的实力，不仅要看其在通用场景下的综合能力，还需考量其在垂直领域的核心能力。GAIA通用智能基准榜单和BrowseComp-Plus深度研究基准榜单，比任何概念讨论都更为直接。

去年，创业公司Manus的智能体爆火，也带火了GAIA榜单。自此，每家的智能体都试图在GAIA上刷个榜。而聚焦深度研究与网页浏览能力的BrowseComp-Plus基准测试，也凭借其严苛的评测标准，成为智能体检索能力的核心比拼赛场。

最近，我们翻阅这两大榜单时发现，榜首位置均迎来了新突破：基于openJiuwen这一新兴开源项目构建的DeepAgent和DeepSearch双双登顶GAIA和BrowseComp-Plus榜首。

DeepAgent登顶GAIA榜首

基于openJiuwen构建的DeepAgent以91.69%的成绩登顶GAIA榜首，超越英伟达Nemotron及众多国内外领先的智能体。

DeepAgent与DeepSearch双霸榜单：openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体第1张

GAIA并非讨好大模型的榜单。它聚焦于通用Agent能力的评测，涵盖长程任务规划、多模态理解等12类核心能力，设置Level 1-3三个难度等级，Level 3级别的任务难度已接近人类水平。

DeepAgent与DeepSearch双霸榜单：openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体第2张

根据Hugging Face上的简介信息，人类参与者在GAIA测试上的平均成功率约为92%，而GPT-4即使有插件的帮助，也只能达到约15%的表现。GAIA的评测设计有几个鲜明特点，如真实世界难度、人类可解释性及防刷榜策略。

openJiuwen-deepagent以91.69%的分数登顶，几乎无限接近人类参与者在GAIA测试上的成绩。这一成绩意味着它在规划、执行稳定性、工具协同等维度形成了系统级优势，意味着通用智能体已经能够达到接近人类的任务执行能力。

基于openJiuwen构建的DeepSearch以80%的准确率登顶BrowseComp-Plus榜首。

DeepAgent与DeepSearch双霸榜单：openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体第3张

BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准。作为OpenAI BrowseComp基准的升级版本，它覆盖多跳检索等核心能力，考验智能体从海量语料中高效挖掘有效信息的能力。

凭借专业的评测设计，BrowseComp-Plus榜单已成为全球顶尖机构检验深度搜索智能体真实实力的重要依据。openJiuwen-deepsearch以80%的准确率登顶，意味着它在多跳深度搜索等维度形成了核心技术优势。

剖析登顶GAIA的DeepAgent和摘得BrowseComp-Plus榜首的DeepSearch，我们发现两款智能体的背后均依托同一个“技术底座”——openJiuwen。

作为面向生产环境打造的开源平台，openJiuwen聚焦智能体的高精准、高可控执行，构建了从开发到优化的全链路能力体系。这意味着任何团队都可以在同样的系统能力之上构建自己的DeepAgent和DeepSearch。

当下，Agent领域已有清晰的分水岭。一边是仍停留在“语言交互”的智能体；另一边则是能够规划任务、调度资源、稳定执行、自我修复的生产级系统。

基于openJiuwen构建的DeepAgent和DeepSearch凭借系统性架构设计，在两大权威榜单的严苛评测中脱颖而出。这标志着为生产级智能体提供高准确、高可用、高效率的一站式AI Agent平台已初现雏形。

本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260436111.html