当前位置：首页 > 科技资讯 > 正文

Eigen-1在HLE基准测试中突破60分大关，引领AI科学推理新纪元

在“人类最后考试”（HLE）的专家校验子集上，首次有系统突破60分大关！

就在最近，由耶鲁大学唐相儒、王昱婕，上海交通大学徐望瀚，UCLA万冠呈，牛津大学尹榛菲，以及Eigen AI的金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了这一历史性突破——

在HLE Bio/Chem Gold测试集上，Pass@1准确率达到48.3%，Pass@5准确率更是飙升至61.74%，首次跨越60分大关。这一成绩远超谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）和Grok 4（30.2%）。

Eigen-1在HLE基准测试中突破60分大关，引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理第1张

最令人振奋的是，这一成就并非依赖闭源超大模型，而是完全基于开源的DeepSeek V3.1搭建。

在这个开源底座上，研究团队通过叠加Monitor-based RAG（隐式知识增强）、HSR（分层解法修复）、QAIR（质量感知迭代推理）三大创新机制，实现了质的飞跃。

Eigen-1在HLE基准测试中突破60分大关，引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理第2张

下面详细展开——

技术创新：三大支柱撑起60分突破

当AI开始挑战人类知识的终极边界，一场前所未有的较量正在上演。

为了追踪AI在科学推理前沿的真实进展，Center for AI Safety与Scale AI联合推出了“人类最后的考试”（Humanity’s Last Exam，HLE）——涵盖数学、自然科学、工程学等百余领域共3000道博士级难题。

而HLE Bio/Chem Gold则是HLE的黄金标准子集，包含149道经过领域专家人工审核和纠正的题目。

正是在HLE Bio/Chem Gold子集上，Eigen-1系统首次跨越60分大关，而这背后离不开其三大创新机制。

传统的检索增强生成（RAG）系统存在“工具税”问题。研究团队通过引入隐式监控、精准查询和无缝注入三大机制，彻底改变了这一范式。

Eigen-1在HLE基准测试中突破60分大关，引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理第3张

除了隐式知识增强，Eigen-1还革新了多智能体的协作模式。通过引入分层解决方案精炼（HSR）打破了传统“民主投票”机制的局限。

Eigen-1在HLE基准测试中突破60分大关，引领AI科学推理新纪元 Eigen-1 HLE基准测试 60分大关 AI科学推理第4张

质量感知迭代推理（QAIR）能根据解答质量自适应地调整迭代深度。该机制为每个方案评估三个维度：逻辑性、答案正确性、解释完整性。

Eigen-1的优势不仅限于HLE：

HLE Bio/Chem Gold（149题）
- Pass@1: 48.3%（领先SciMaster 13.4个百分点）
- Pass@5: 61.74% （首破60%）
SuperGPQA生物学（Hard版）
- Pass@1: 69.57%
- Pass@5: 78.26%
TRQA文献理解
- Pass@1: 54.65%
- Pass@5: 79.07%

研究发现，科学推理的核心挑战在于将知识与推理无缝整合。

团队通过增量构建和消融实验精确量化了每个组件的贡献。

“工具税”直观地体现在准确率提升与token减少的关系中。Eigen-1在大幅提升准确率的同时减少了计算开销。

本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542087.html