在“人类最后考试”(HLE)的专家校验子集上,首次有系统突破60分大关!
就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,以及Eigen AI的金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了这一历史性突破——
在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。
最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。
在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创新机制,实现了质的飞跃。
下面详细展开——
当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。
为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与Scale AI联合推出了“人类最后的考试”(Humanity’s Last Exam,HLE)——涵盖数学、自然科学、工程学等百余领域共3000道博士级难题。
而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。
正是在HLE Bio/Chem Gold子集上,Eigen-1系统首次跨越60分大关,而这背后离不开其三大创新机制。
传统的检索增强生成(RAG)系统存在“工具税”问题。研究团队通过引入隐式监控、精准查询和无缝注入三大机制,彻底改变了这一范式。
除了隐式知识增强,Eigen-1还革新了多智能体的协作模式。通过引入分层解决方案精炼(HSR)打破了传统“民主投票”机制的局限。
质量感知迭代推理(QAIR)能根据解答质量自适应地调整迭代深度。该机制为每个方案评估三个维度:逻辑性、答案正确性、解释完整性。
Eigen-1的优势不仅限于HLE:
HLE Bio/Chem Gold(149题)
Pass@1: 48.3%(领先SciMaster 13.4个百分点)
Pass@5: 61.74% (首破60%)
SuperGPQA生物学(Hard版)
Pass@1: 69.57%
Pass@5: 78.26%
TRQA文献理解
Pass@1: 54.65%
Pass@5: 79.07%
研究发现,科学推理的核心挑战在于将知识与推理无缝整合。
团队通过增量构建和消融实验精确量化了每个组件的贡献。
“工具税”直观地体现在准确率提升与token减少的关系中。Eigen-1在大幅提升准确率的同时减少了计算开销。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542087.html