当前位置:首页 > 科技资讯 > 正文

人类最后的考试:AI基准测试的新挑战与未来

当所有评估分数都达到满分时,评分体系便失去了其核心意义。

自人工智能技术问世以来,人类便持续通过多样化题库来检验AI的智能水平,无论是ChatGPT、Gemini、Grok,还是DeepSeek、Kimi、文心一言,这些模型在发布时几乎都会附带性能跑分成绩。

时至今日,主流测试题库几乎已被AI彻底攻克,每一代新模型都宣称“霸榜碾压”或“满分横扫”,在MMLU等热门基准测试中,多数模型的准确率已超过90%——换言之,人类越来越难以准确衡量AI的智能程度

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第1张

回顾往昔,AI仅需模拟人类行为即可通过测试(如今图灵测试已较少被提及)|x @PhysInHistory

“人工智能能力的评估依赖于基准测试,然而基准测试正迅速饱和,逐渐丧失作为衡量工具的价值……”人类最后的考试网站首页指出,“在MMLU和GPQA等测试中表现出色,已不再是技术进步的有力指标,因为前沿模型在这些测试中的表现已接近或超越人类水平。”

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第2张

在MMLU基准测试中,前沿大模型的得分趋于接近。一个值得深思的问题是:如果AI已比人类更聪明,我们是否有足够的智慧来认知这一点?|bracai.eu

为了深入理解快速进化的AI发展现状,并为它们提供更细致的排名区分,我们需要引入更具挑战性的题目。

作为当前人类智慧与文明成果的集中体现,“人类最后的考试”(Humanity"s Last Exam,简称HLE)正是在这一背景下诞生的。

人类智识的最终堡垒:涵盖文理的综合挑战

“人类最后的考试”是一项基准测试,由Center for AI Safety与Scale AI联合创建,经过多次调整后,于2025年3月4日最终确定为包含2500道前沿学术难题的题库。

这些题目覆盖100多个不同学科领域,大致可归类如下:

数学(Mathematics):包含大量高难度数学题,涉及高等代数、拓扑学、范畴论、概率论、图论、数论等,注重推理深度。

自然科学(Natural Sciences):涵盖物理学、化学、生物学、生态学、医学等。

计算机科学与人工智能(Computer Science & AI):包括算法、图论、马尔可夫链、程序推理等。

工程学(Engineering):涉及复杂系统与应用技术问题。

人文学科与社会科学(Humanities & Social Sciences):包含语言学、历史学、经济学、宗教研究、人类学、心理学、教育学、古典学、文化研究等广泛领域。

其他:涉及冷门知识或小众学科(如古文字解读、特定地域风俗考证等)。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第3张

题库分布显示,数学题占41%,人文领域题占18%|HLE

HLE的突出特点是其多模态形式,问题不仅基于文本,还包含图表、古文字、图像、公式等,要求AI必须先理解问题才能作答。

HLE官网公开了部分题目示例。

例如下面这道古典学题目,要求将一段墓碑上的罗马铭文翻译为帕米拉亚兰语(附有音译)。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第4张

该题由牛津大学墨顿学院博士Henry Tang提交|HLE

还有这道考察古希腊神话关系的民俗知识题:希腊神话中,伊阿宋的曾外祖父是谁?

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第5张

由墨西哥国立理工学院医学部Darling D提交|HLE

这道生物学题目语言复杂,类似于GRE考试风格,询问蜂鸟的籽骨支撑多少对肌腱,并要求以数字作答。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第6张

由麻省理工学院计算机系博士Edward Vendrow提交|HLE

还有这道结合图论与马尔可夫链的题目:

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第7张

由伦敦玛丽女王大学计算机系讲师Dr. Marc Roth提交|HLE

感兴趣者可访问HLE官网查看更多题目,甚至尝试与AI一较高下。

尽管这些问题已公开发布供开发者测试模型,但HLE声称“为应对训练数据污染和基准测试攻击”,保留了一个非公开数据集(private set),用于定期检测模型与公共数据的过拟合情况,这部分核心数据不对外公开,专门用于AI模型排行榜和最终评分。

题库题目主要包括选择题和简答题两种形式。

选择题需从五个及以上选项中选出答案(题库中24%为多选题),简答题则要求输出与答案完全一致的字符串,不允许语义模糊或不准。约14%的题目需同时理解文字和图像。

这意味着“全选C”或“字数多得分”的策略无效。

“为人类未来,提交最具挑战性的问题”

“人类最后的考试”这一名称颇具吸引力,其发起人丹·亨德里克斯最初构想为“人类最后一战”,后因过于戏剧化而调整。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第8张

丹·亨德里克斯,他曾撰写《灾难性人工智能风险概述》|The New York Times

丹·亨德里克斯是一位杰出人物。

25岁时,他参与编写了当前热门的AI基准测试MMLU,截至2024年7月,下载量超1亿次。30岁时,他意识到AI能力已超越现有基准,MMLU不再适用,因此决定创建新测试(他在采访中提到,部分动力来自马斯克认为当前基准过于简单)。

目前,亨德里克斯在马斯克的xAI公司担任安全顾问,同时兼任Scale AI顾问。为避免利益冲突,他仅象征性领取月薪一美元,且不持有任何公司股权。

回到HLE项目。

2024年9月,亨德里克斯公开发文,号召全球学者“为人类最后的考试贡献最难的问题”。

“未来AI系统终将超越所有静态基准,因此突破评估界限至关重要。为追踪AI与专家能力的差距,我们正组建史上最大规模的专家联盟。”他写道,“如果你认为某个问题被AI解答会令人惊叹,欢迎提交。”

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第9张

为人类未来,提交最具挑战性的问题|scale.com

提交问题并非无偿,亨德里克斯宣布,评分最高的问题贡献者可分享50万美元奖金——前50个问题每题奖励5000美元,随后500个问题每题奖励500美元。

HLE对问题提出了严格标准。

首先,答案需无法通过网络搜索直接获取。其次,问题须为原创,未在以往考试中出现。再次,问题需有明确答案,且获领域专家广泛认可,无个人偏好、歧义或主观性。最后,问题难度应达硕士级别以上,因为“经验表明,若随机本科生能理解题目,则对大模型可能过于简单”。

每道题提交时需包含题目、答案(精确回答或正确选项)、详细推理过程、所属学科及贡献者姓名与机构信息。

所有提交问题经过两步筛选:先由最先进AI尝试解答,若AI无法回答或在多选题中得分低于随机猜测,则进入人工审阅,由专家验证答案。

据《纽约时报》采访,加州大学伯克利分校理论粒子物理学博士后Kevin Zhou表示,他提交的问题中有三道被选中,这些题目“均达研究生考试难度上限”。

最终,HLE收到来自50多个国家、500多家机构千余名学者的回复,形成了当前最难的AI基准测试题库。

对AI而言,HLE难在何处?

HLE是否真正难住了AI?从结果看,确实如此。

目前,主流前沿模型在纯文本模式下于HLE上的得分较低,OpenAI最新o3-mini(high)模型准确率仅13%,而近期备受关注的DeepSeek-R1准确率为9.4%。当前最高分是Grok4,正确率26.9%。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第10张

截至今年一月论文发布时的数据,黑色柱形表示HLE准确率|HLE官网

这些题目为何如此困难?

原因包括需要深度推理、答案无法直接获取,且题目经过筛选,专挑现有模型表现差的领域。

此外,部分问题为AI设置了陷阱。

如前文提及的蜂鸟籽骨问题,看似简单,但测试显示ChatGPT5和Gemini均生成冗长回答,忽略了“用数字回答”的要求。

因此,所有非“2”的答案均判错(尽管有些模型在长篇论述后给出了正确答案),这可能是产品设计问题而非AI能力问题。

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第11张

Threads@raystormfang

另外,有些问题连人类专家也未达成共识。

最终考试,或许难以持久

尽管HLE奖金丰厚、概念前瞻、目标崇高,但其争议已逐渐浮现。

2025年7月,非营利组织FutureHouse发布调查报告,称HLE中“化学生物领域约30%的答案可能存在错误”。

他们组建化学生物专家评审团,详细分析HLE题库后得出结论:“29±3.7%(95%置信区间)的纯文本化学生物问题答案与同行评审文献证据直接冲突”。

例如问题:截至2002年,在地球物质总量中占比最少的稀有气体是哪种?

答案是鿫(Oganesson)

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第12张

鿫(Og)是人工合成的放射性超重元素,原子序数118,位于元素周期表稀有气体族末端。2002年首次合成,仅存数毫秒,迄今只合成五个原子。它可能非气体也非惰性气体,且多数文献未将其列为地球物质——因此答案存在争议。

此外,AI能否解答脑筋急转弯类问题,其意义何在?

另一个问题是,对大多数前沿模型而言,HLE难度过高,导致得分普遍较低,这与得分普遍较高的情况类似,仍缺乏区分度,且难以明确高分模型的优势所在。HLE聚焦于可测试的学术内容——涵盖已知题目和闭合答案,但对开放式创造力、生成类问题或前沿研究思维的评估仍显不足。

尽管耗费巨资创建题库,HLE可能很快被突破。

HLE自身预测,虽然当前AI在HLE上准确率很低,但到2025年底,模型准确率有望超过50%。事实上,未至年底,Grok4在使用工具(如代码解释器)后正确率已升至41.0%

人类最后的考试:AI基准测试的新挑战与未来 人工智能基准测试 HLE 模型评估 学术难题 第13张

亨德里克斯表示,HLE或许是人类对模型进行的最后一次学术考试,但它远非人工智能的最终基准。当HLE再被超越,我们又将设计怎样的题目来评估AI?