当前位置:首页 > 科技资讯 > 正文

DeepAgent与DeepSearch双霸榜单:openJiuwen引领智能体新时代

2026年伊始,人工智能界最炙手可热的是一只名为Clawdbot的小龙虾,但如今它已更名为OpenClaw,尽管更名两次,仍无法阻挡全球对其的热情。人们渴望一个更高级、更通用、更可靠的超级智能体。

过去一年,智能体如雨后春笋般涌现,2025年甚至被称为“AI智能体元年”。衡量智能体的实力,不仅要看其在通用场景下的综合能力,还需考量其在垂直领域的核心能力。GAIA通用智能基准榜单和BrowseComp-Plus深度研究基准榜单,比任何概念讨论都更为直接。

去年,创业公司Manus的智能体爆火,也带火了GAIA榜单。自此,每家的智能体都试图在GAIA上刷个榜。而聚焦深度研究与网页浏览能力的BrowseComp-Plus基准测试,也凭借其严苛的评测标准,成为智能体检索能力的核心比拼赛场。

最近,我们翻阅这两大榜单时发现,榜首位置均迎来了新突破:基于openJiuwen这一新兴开源项目构建的DeepAgent和DeepSearch双双登顶GAIA和BrowseComp-Plus榜首。

DeepAgent登顶GAIA榜首

基于openJiuwen构建的DeepAgent以91.69%的成绩登顶GAIA榜首,超越英伟达Nemotron及众多国内外领先的智能体。

DeepAgent与DeepSearch双霸榜单:openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体 第1张

榜单链接:https://gaia-benchmark-leaderboard.hf.space/

  • GAIA打榜:直面Agent的最大挑战

GAIA并非讨好大模型的榜单。它聚焦于通用Agent能力的评测,涵盖长程任务规划、多模态理解等12类核心能力,设置Level 1-3三个难度等级,Level 3级别的任务难度已接近人类水平。

DeepAgent与DeepSearch双霸榜单:openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体 第2张

根据Hugging Face上的简介信息,人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4即使有插件的帮助,也只能达到约15%的表现。GAIA的评测设计有几个鲜明特点,如真实世界难度、人类可解释性及防刷榜策略。

openJiuwen-deepagent以91.69%的分数登顶,几乎无限接近人类参与者在GAIA测试上的成绩。这一成绩意味着它在规划、执行稳定性、工具协同等维度形成了系统级优势,意味着通用智能体已经能够达到接近人类的任务执行能力。

DeepSearch登顶BrowseComp-Plus榜首

基于openJiuwen构建的DeepSearch以80%的准确率登顶BrowseComp-Plus榜首。

DeepAgent与DeepSearch双霸榜单:openJiuwen引领智能体新时代 DeepAgent DeepSearch openJiuwen 智能体 第3张

榜单链接:https://huggingface.co/spaces/Tevatron/BrowseComp-Plus

  • BrowseComp-Plus榜单:攻坚深度搜索核心考验

BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准。作为OpenAI BrowseComp基准的升级版本,它覆盖多跳检索等核心能力,考验智能体从海量语料中高效挖掘有效信息的能力。

凭借专业的评测设计,BrowseComp-Plus榜单已成为全球顶尖机构检验深度搜索智能体真实实力的重要依据。openJiuwen-deepsearch以80%的准确率登顶,意味着它在多跳深度搜索等维度形成了核心技术优势。

冲榜背后:openJiuwen提供核心支撑

剖析登顶GAIA的DeepAgent和摘得BrowseComp-Plus榜首的DeepSearch,我们发现两款智能体的背后均依托同一个“技术底座”——openJiuwen。

作为面向生产环境打造的开源平台,openJiuwen聚焦智能体的高精准、高可控执行,构建了从开发到优化的全链路能力体系。这意味着任何团队都可以在同样的系统能力之上构建自己的DeepAgent和DeepSearch。

总结:智能体的分水岭

当下,Agent领域已有清晰的分水岭。一边是仍停留在“语言交互”的智能体;另一边则是能够规划任务、调度资源、稳定执行、自我修复的生产级系统。

基于openJiuwen构建的DeepAgent和DeepSearch凭借系统性架构设计,在两大权威榜单的严苛评测中脱颖而出。这标志着为生产级智能体提供高准确、高可用、高效率的一站式AI Agent平台已初现雏形。