当前位置：首页 > 科技资讯 > 正文

人类最后的考试：AI基准测试的新挑战与未来

主机测评网
科技资讯
2026-01-03
903

当所有评估分数都达到满分时，评分体系便失去了其核心意义。

自人工智能技术问世以来，人类便持续通过多样化题库来检验AI的智能水平，无论是ChatGPT、Gemini、Grok，还是DeepSeek、Kimi、文心一言，这些模型在发布时几乎都会附带性能跑分成绩。

时至今日，主流测试题库几乎已被AI彻底攻克，每一代新模型都宣称“霸榜碾压”或“满分横扫”，在MMLU等热门基准测试中，多数模型的准确率已超过90%——换言之，人类越来越难以准确衡量AI的智能程度。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第1张

回顾往昔，AI仅需模拟人类行为即可通过测试（如今图灵测试已较少被提及）｜x @PhysInHistory

“人工智能能力的评估依赖于基准测试，然而基准测试正迅速饱和，逐渐丧失作为衡量工具的价值……”人类最后的考试网站首页指出，“在MMLU和GPQA等测试中表现出色，已不再是技术进步的有力指标，因为前沿模型在这些测试中的表现已接近或超越人类水平。”

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第2张

在MMLU基准测试中，前沿大模型的得分趋于接近。一个值得深思的问题是：如果AI已比人类更聪明，我们是否有足够的智慧来认知这一点？｜bracai.eu

为了深入理解快速进化的AI发展现状，并为它们提供更细致的排名区分，我们需要引入更具挑战性的题目。

作为当前人类智慧与文明成果的集中体现，“人类最后的考试”（Humanity"s Last Exam，简称HLE）正是在这一背景下诞生的。

人类智识的最终堡垒：涵盖文理的综合挑战

“人类最后的考试”是一项基准测试，由Center for AI Safety与Scale AI联合创建，经过多次调整后，于2025年3月4日最终确定为包含2500道前沿学术难题的题库。

这些题目覆盖100多个不同学科领域，大致可归类如下：

数学（Mathematics）：包含大量高难度数学题，涉及高等代数、拓扑学、范畴论、概率论、图论、数论等，注重推理深度。

自然科学（Natural Sciences）：涵盖物理学、化学、生物学、生态学、医学等。

计算机科学与人工智能（Computer Science & AI）：包括算法、图论、马尔可夫链、程序推理等。

工程学（Engineering）：涉及复杂系统与应用技术问题。

人文学科与社会科学（Humanities & Social Sciences）：包含语言学、历史学、经济学、宗教研究、人类学、心理学、教育学、古典学、文化研究等广泛领域。

其他：涉及冷门知识或小众学科（如古文字解读、特定地域风俗考证等）。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第3张

题库分布显示，数学题占41%，人文领域题占18%｜HLE

HLE的突出特点是其多模态形式，问题不仅基于文本，还包含图表、古文字、图像、公式等，要求AI必须先理解问题才能作答。

HLE官网公开了部分题目示例。

例如下面这道古典学题目，要求将一段墓碑上的罗马铭文翻译为帕米拉亚兰语（附有音译）。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第4张

该题由牛津大学墨顿学院博士Henry Tang提交｜HLE

还有这道考察古希腊神话关系的民俗知识题：希腊神话中，伊阿宋的曾外祖父是谁？

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第5张

由墨西哥国立理工学院医学部Darling D提交｜HLE

这道生物学题目语言复杂，类似于GRE考试风格，询问蜂鸟的籽骨支撑多少对肌腱，并要求以数字作答。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第6张

由麻省理工学院计算机系博士Edward Vendrow提交｜HLE

还有这道结合图论与马尔可夫链的题目：

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第7张

由伦敦玛丽女王大学计算机系讲师Dr. Marc Roth提交｜HLE

感兴趣者可访问HLE官网查看更多题目，甚至尝试与AI一较高下。

尽管这些问题已公开发布供开发者测试模型，但HLE声称“为应对训练数据污染和基准测试攻击”，保留了一个非公开数据集（private set），用于定期检测模型与公共数据的过拟合情况，这部分核心数据不对外公开，专门用于AI模型排行榜和最终评分。

题库题目主要包括选择题和简答题两种形式。

选择题需从五个及以上选项中选出答案（题库中24%为多选题），简答题则要求输出与答案完全一致的字符串，不允许语义模糊或不准。约14%的题目需同时理解文字和图像。

这意味着“全选C”或“字数多得分”的策略无效。

“为人类未来，提交最具挑战性的问题”

“人类最后的考试”这一名称颇具吸引力，其发起人丹·亨德里克斯最初构想为“人类最后一战”，后因过于戏剧化而调整。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第8张

丹·亨德里克斯，他曾撰写《灾难性人工智能风险概述》｜The New York Times

丹·亨德里克斯是一位杰出人物。

25岁时，他参与编写了当前热门的AI基准测试MMLU，截至2024年7月，下载量超1亿次。30岁时，他意识到AI能力已超越现有基准，MMLU不再适用，因此决定创建新测试（他在采访中提到，部分动力来自马斯克认为当前基准过于简单）。

目前，亨德里克斯在马斯克的xAI公司担任安全顾问，同时兼任Scale AI顾问。为避免利益冲突，他仅象征性领取月薪一美元，且不持有任何公司股权。

回到HLE项目。

2024年9月，亨德里克斯公开发文，号召全球学者“为人类最后的考试贡献最难的问题”。

“未来AI系统终将超越所有静态基准，因此突破评估界限至关重要。为追踪AI与专家能力的差距，我们正组建史上最大规模的专家联盟。”他写道，“如果你认为某个问题被AI解答会令人惊叹，欢迎提交。”

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第9张

为人类未来，提交最具挑战性的问题｜scale.com

提交问题并非无偿，亨德里克斯宣布，评分最高的问题贡献者可分享50万美元奖金——前50个问题每题奖励5000美元，随后500个问题每题奖励500美元。

HLE对问题提出了严格标准。

首先，答案需无法通过网络搜索直接获取。其次，问题须为原创，未在以往考试中出现。再次，问题需有明确答案，且获领域专家广泛认可，无个人偏好、歧义或主观性。最后，问题难度应达硕士级别以上，因为“经验表明，若随机本科生能理解题目，则对大模型可能过于简单”。

每道题提交时需包含题目、答案（精确回答或正确选项）、详细推理过程、所属学科及贡献者姓名与机构信息。

所有提交问题经过两步筛选：先由最先进AI尝试解答，若AI无法回答或在多选题中得分低于随机猜测，则进入人工审阅，由专家验证答案。

据《纽约时报》采访，加州大学伯克利分校理论粒子物理学博士后Kevin Zhou表示，他提交的问题中有三道被选中，这些题目“均达研究生考试难度上限”。

最终，HLE收到来自50多个国家、500多家机构千余名学者的回复，形成了当前最难的AI基准测试题库。

对AI而言，HLE难在何处？

HLE是否真正难住了AI？从结果看，确实如此。

目前，主流前沿模型在纯文本模式下于HLE上的得分较低，OpenAI最新o3-mini（high）模型准确率仅13%，而近期备受关注的DeepSeek-R1准确率为9.4%。当前最高分是Grok4，正确率26.9%。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第10张

截至今年一月论文发布时的数据，黑色柱形表示HLE准确率｜HLE官网

这些题目为何如此困难？

原因包括需要深度推理、答案无法直接获取，且题目经过筛选，专挑现有模型表现差的领域。

此外，部分问题为AI设置了陷阱。

如前文提及的蜂鸟籽骨问题，看似简单，但测试显示ChatGPT5和Gemini均生成冗长回答，忽略了“用数字回答”的要求。

因此，所有非“2”的答案均判错（尽管有些模型在长篇论述后给出了正确答案），这可能是产品设计问题而非AI能力问题。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第11张

Threads@raystormfang

另外，有些问题连人类专家也未达成共识。

最终考试，或许难以持久

尽管HLE奖金丰厚、概念前瞻、目标崇高，但其争议已逐渐浮现。

2025年7月，非营利组织FutureHouse发布调查报告，称HLE中“化学生物领域约30%的答案可能存在错误”。

他们组建化学生物专家评审团，详细分析HLE题库后得出结论：“29±3.7%（95%置信区间）的纯文本化学生物问题答案与同行评审文献证据直接冲突”。

例如问题：截至2002年，在地球物质总量中占比最少的稀有气体是哪种？

答案是鿫（Oganesson）。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第12张

鿫（Og）是人工合成的放射性超重元素，原子序数118，位于元素周期表稀有气体族末端。2002年首次合成，仅存数毫秒，迄今只合成五个原子。它可能非气体也非惰性气体，且多数文献未将其列为地球物质——因此答案存在争议。

此外，AI能否解答脑筋急转弯类问题，其意义何在？

另一个问题是，对大多数前沿模型而言，HLE难度过高，导致得分普遍较低，这与得分普遍较高的情况类似，仍缺乏区分度，且难以明确高分模型的优势所在。HLE聚焦于可测试的学术内容——涵盖已知题目和闭合答案，但对开放式创造力、生成类问题或前沿研究思维的评估仍显不足。

尽管耗费巨资创建题库，HLE可能很快被突破。

HLE自身预测，虽然当前AI在HLE上准确率很低，但到2025年底，模型准确率有望超过50%。事实上，未至年底，Grok4在使用工具（如代码解释器）后正确率已升至41.0%。

人类最后的考试：AI基准测试的新挑战与未来人工智能基准测试 HLE 模型评估学术难题第13张

亨德里克斯表示，HLE或许是人类对模型进行的最后一次学术考试，但它远非人工智能的最终基准。当HLE再被超越，我们又将设计怎样的题目来评估AI？

性价比服务器高防服务器免费vps

本文由主机测评网于2026-01-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114517.html

人类最后的考试：AI基准测试的新挑战与未来

人类智识的最终堡垒：涵盖文理的综合挑战

“为人类未来，提交最具挑战性的问题”

对AI而言，HLE难在何处？

最终考试，或许难以持久

Ubuntu系统下Cursor编辑器完全指南 (安装与配置详细教程)

Linux网络配置完全指南：从网卡命名到IP修改的精通之路（新手入门详解）

人类最后的考试：AI基准测试的新挑战与未来

人类智识的最终堡垒：涵盖文理的综合挑战

“为人类未来，提交最具挑战性的问题”

对AI而言，HLE难在何处？

最终考试，或许难以持久

Ubuntu系统下Cursor编辑器完全指南 (安装与配置详细教程)

Linux网络配置完全指南：从网卡命名到IP修改的精通之路（新手入门详解）

相关文章