当前位置:首页 > 科技资讯 > 正文

AI新挑战:人类最后的考试能否难住前沿模型?

如今,仅仅依靠满分成绩来衡量AI的优劣已失去意义。

自AI问世以来,人们便热衷于通过各类题库测试其智能水平,从ChatGPT到Gemini,从Grok到DeepSeek,它们的发布总伴随着跑分成绩。然而,随着AI的进化,市面上的题库逐渐显得过于简单,新模型纷纷以“霸榜碾压”和“满分横扫”的姿态出现,在MMLU等热门基准测试中,多数模型的准确率已超过90%。这意味着,人类已难以准确评估AI的真实智能。

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第1张

回忆往昔,AI只需表现出些许人性便能通过测试(图灵测试已鲜有人提及)|x @PhysInHistory

基准测试正迅速饱和,其效用作为衡量工具正在减弱。“人类最后的考试”网站首页如此写道:“在MMLU和GPQA等测试中表现优异,已不再是进步的标志,因为前沿模型在这些基准测试中已达到或超越人类水平。”

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第2张

在MMLU基准测试中,前沿大模型的得分难分伯仲。然而,若AI真的比人类更聪明,我们是否有足够的智慧去认知这一点?|bracai.eu

为了明确高速进化的AI的发展阶段并为其排名,我们需要引入更具挑战性的题目。

在此背景下,“人类最后的考试”(Humanity's Last Exam,简称HLE)应运而生,它代表着人类最高智慧和最先进文明的成果。

人类智慧的最后防线,文科亦在其中

“人类最后的考试”是一个由Center for AI Safety和Scale AI联合创建的基准测试。经过多次调整,其测试内容最终在2025年3月4日确定为一套包含2500个前沿学术难题的题库。

这些题目横跨100多个学科领域,大致可分为以下几类:

数学:涵盖高等代数、拓扑、范畴论等,强调推理深度。

自然科学:包括物理、化学、生物等。

计算机科学与人工智能:涉及算法、图论等。

工程学:解决复杂系统和应用技术问题。

人文学科与社会科学:涵盖语言学、历史学、经济学等。

其他:涉及冷门知识或小众学科。

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第3张

具体分布中,数学题占41%,人文领域题占18%。|HLE

HLE最令人印象深刻的是其多模态特性。这些问题不仅基于文本,还涉及图表、古文字、图像和公式。这意味着AI在回答问题前,必须首先理解问题。

HLE的官网公开了部分问题。

例如,这道古典学领域的题目要求AI将一段罗马铭文翻译成帕米拉亚兰语。

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第4张

由牛津大学墨顿学院博士Henry Tang提交|HLE

还有这道考察AI对古希腊男女关系的了解程度的民俗小知识题:在希腊神话中,伊阿宋的曾姥爷是谁?

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第5张

由墨西哥国立理工学院医学部的Darling D提交(未找到此人信息)。|HLE

生物题则要求回答蜂鸟的籽骨支撑着多少对肌腱。

AI新挑战:人类最后的考试能否难住前沿模型? AI基准测试 HLE 多模态 前沿模型 第6张

由麻省理工大学计算机系的博士Edward Vendrow提交。|HLE

“为了全人类,提交你最难的问题”

“人类最后的考试”这个名字非常贴切。若不是这个名字的吸引,我或许永远不会对冷冰冰的基准测试产生兴趣。

然而,HLE的发起人丹·亨德里克斯(Dan Hendrycks)原本想将其命名为“人类最后一战”,但大家认为这个名字过于戏剧化,最终放弃。

高防服务器阿里云服务器