当前位置：首页 > 科技资讯 > 正文

AI新挑战：人类最后的考试能否难住前沿模型？

主机测评网
科技资讯
2026-05-01
332

如今，仅仅依靠满分成绩来衡量AI的优劣已失去意义。

自AI问世以来，人们便热衷于通过各类题库测试其智能水平，从ChatGPT到Gemini，从Grok到DeepSeek，它们的发布总伴随着跑分成绩。然而，随着AI的进化，市面上的题库逐渐显得过于简单，新模型纷纷以“霸榜碾压”和“满分横扫”的姿态出现，在MMLU等热门基准测试中，多数模型的准确率已超过90%。这意味着，人类已难以准确评估AI的真实智能。

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第1张

回忆往昔，AI只需表现出些许人性便能通过测试（图灵测试已鲜有人提及）｜x @PhysInHistory

基准测试正迅速饱和，其效用作为衡量工具正在减弱。“人类最后的考试”网站首页如此写道：“在MMLU和GPQA等测试中表现优异，已不再是进步的标志，因为前沿模型在这些基准测试中已达到或超越人类水平。”

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第2张

在MMLU基准测试中，前沿大模型的得分难分伯仲。然而，若AI真的比人类更聪明，我们是否有足够的智慧去认知这一点？｜bracai.eu

为了明确高速进化的AI的发展阶段并为其排名，我们需要引入更具挑战性的题目。

在此背景下，“人类最后的考试”（Humanity's Last Exam，简称HLE）应运而生，它代表着人类最高智慧和最先进文明的成果。

人类智慧的最后防线，文科亦在其中

“人类最后的考试”是一个由Center for AI Safety和Scale AI联合创建的基准测试。经过多次调整，其测试内容最终在2025年3月4日确定为一套包含2500个前沿学术难题的题库。

这些题目横跨100多个学科领域，大致可分为以下几类：

数学：涵盖高等代数、拓扑、范畴论等，强调推理深度。

自然科学：包括物理、化学、生物等。

计算机科学与人工智能：涉及算法、图论等。

工程学：解决复杂系统和应用技术问题。

人文学科与社会科学：涵盖语言学、历史学、经济学等。

其他：涉及冷门知识或小众学科。

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第3张

具体分布中，数学题占41%，人文领域题占18%。｜HLE

HLE最令人印象深刻的是其多模态特性。这些问题不仅基于文本，还涉及图表、古文字、图像和公式。这意味着AI在回答问题前，必须首先理解问题。

HLE的官网公开了部分问题。

例如，这道古典学领域的题目要求AI将一段罗马铭文翻译成帕米拉亚兰语。

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第4张

由牛津大学墨顿学院博士Henry Tang提交｜HLE

还有这道考察AI对古希腊男女关系的了解程度的民俗小知识题：在希腊神话中，伊阿宋的曾姥爷是谁？

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第5张

由墨西哥国立理工学院医学部的Darling D提交（未找到此人信息）。｜HLE

生物题则要求回答蜂鸟的籽骨支撑着多少对肌腱。

AI新挑战：人类最后的考试能否难住前沿模型？ AI基准测试 HLE 多模态前沿模型第6张

由麻省理工大学计算机系的博士Edward Vendrow提交。｜HLE

“为了全人类，提交你最难的问题”

“人类最后的考试”这个名字非常贴切。若不是这个名字的吸引，我或许永远不会对冷冰冰的基准测试产生兴趣。

然而，HLE的发起人丹·亨德里克斯（Dan Hendrycks）原本想将其命名为“人类最后一战”，但大家认为这个名字过于戏剧化，最终放弃。

高防服务器阿里云服务器

本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260541923.html

上一篇

巨头豪掷10亿，AI加速“人类级”进化

下一篇

Google AI战略大棋局：立体化突击与生态战