当前位置:首页 > 科技资讯 > 正文

Eigen-1在HLE基准测试中突破60分大关,引领AI科学推理新纪元

在“人类最后考试”(HLE)的专家校验子集上,首次有系统突破60分大关!

就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,以及Eigen AI的金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了这一历史性突破——

在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。

Eigen-1在HLE基准测试中突破60分大关,引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理 第1张

最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建

在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创新机制,实现了质的飞跃。

Eigen-1在HLE基准测试中突破60分大关,引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理 第2张

下面详细展开——

技术创新:三大支柱撑起60分突破

当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。

为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与Scale AI联合推出了“人类最后的考试”(Humanity’s Last Exam,HLE)——涵盖数学、自然科学、工程学等百余领域共3000道博士级难题。

而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。

正是在HLE Bio/Chem Gold子集上,Eigen-1系统首次跨越60分大关,而这背后离不开其三大创新机制。

1. Monitor-based RAG:告别“工具税”的隐式检索增强

传统的检索增强生成(RAG)系统存在“工具税”问题。研究团队通过引入隐式监控精准查询无缝注入三大机制,彻底改变了这一范式。

Eigen-1在HLE基准测试中突破60分大关,引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理 第3张

2. Hierarchical Solution Refinement (HSR):从“民主投票”到“层级精炼”

除了隐式知识增强,Eigen-1还革新了多智能体的协作模式。通过引入分层解决方案精炼(HSR)打破了传统“民主投票”机制的局限。

Eigen-1在HLE基准测试中突破60分大关,引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理 第4张

3. Quality-Aware Iterative Reasoning (QAIR):质量驱动的迭代优化

质量感知迭代推理(QAIR)能根据解答质量自适应地调整迭代深度。该机制为每个方案评估三个维度:逻辑性、答案正确性、解释完整性。

全面碾压:不止于HLE

Eigen-1的优势不仅限于HLE:

  • HLE Bio/Chem Gold(149题)

    • Pass@1: 48.3%(领先SciMaster 13.4个百分点)

    • Pass@5: 61.74% (首破60%)

  • SuperGPQA生物学(Hard版)

    • Pass@1: 69.57%

    • Pass@5: 78.26%

  • TRQA文献理解

    • Pass@1: 54.65%

    • Pass@5: 79.07%

深层洞察:成功背后的规律

错误模式分析

研究发现,科学推理的核心挑战在于将知识与推理无缝整合。

组件贡献的精确量化

团队通过增量构建和消融实验精确量化了每个组件的贡献。

“工具税”的精确量化

“工具税”直观地体现在准确率提升与token减少的关系中。Eigen-1在大幅提升准确率的同时减少了计算开销。