如今,仅仅依靠满分成绩来衡量AI的优劣已失去意义。
自AI问世以来,人们便热衷于通过各类题库测试其智能水平,从ChatGPT到Gemini,从Grok到DeepSeek,它们的发布总伴随着跑分成绩。然而,随着AI的进化,市面上的题库逐渐显得过于简单,新模型纷纷以“霸榜碾压”和“满分横扫”的姿态出现,在MMLU等热门基准测试中,多数模型的准确率已超过90%。这意味着,人类已难以准确评估AI的真实智能。
回忆往昔,AI只需表现出些许人性便能通过测试(图灵测试已鲜有人提及)|x @PhysInHistory
基准测试正迅速饱和,其效用作为衡量工具正在减弱。“人类最后的考试”网站首页如此写道:“在MMLU和GPQA等测试中表现优异,已不再是进步的标志,因为前沿模型在这些基准测试中已达到或超越人类水平。”
在MMLU基准测试中,前沿大模型的得分难分伯仲。然而,若AI真的比人类更聪明,我们是否有足够的智慧去认知这一点?|bracai.eu
为了明确高速进化的AI的发展阶段并为其排名,我们需要引入更具挑战性的题目。
在此背景下,“人类最后的考试”(Humanity's Last Exam,简称HLE)应运而生,它代表着人类最高智慧和最先进文明的成果。
“人类最后的考试”是一个由Center for AI Safety和Scale AI联合创建的基准测试。经过多次调整,其测试内容最终在2025年3月4日确定为一套包含2500个前沿学术难题的题库。
这些题目横跨100多个学科领域,大致可分为以下几类:
数学:涵盖高等代数、拓扑、范畴论等,强调推理深度。
自然科学:包括物理、化学、生物等。
计算机科学与人工智能:涉及算法、图论等。
工程学:解决复杂系统和应用技术问题。
人文学科与社会科学:涵盖语言学、历史学、经济学等。
其他:涉及冷门知识或小众学科。
具体分布中,数学题占41%,人文领域题占18%。|HLE
HLE最令人印象深刻的是其多模态特性。这些问题不仅基于文本,还涉及图表、古文字、图像和公式。这意味着AI在回答问题前,必须首先理解问题。
HLE的官网公开了部分问题。
例如,这道古典学领域的题目要求AI将一段罗马铭文翻译成帕米拉亚兰语。
由牛津大学墨顿学院博士Henry Tang提交|HLE
还有这道考察AI对古希腊男女关系的了解程度的民俗小知识题:在希腊神话中,伊阿宋的曾姥爷是谁?
由墨西哥国立理工学院医学部的Darling D提交(未找到此人信息)。|HLE
生物题则要求回答蜂鸟的籽骨支撑着多少对肌腱。
由麻省理工大学计算机系的博士Edward Vendrow提交。|HLE
“人类最后的考试”这个名字非常贴切。若不是这个名字的吸引,我或许永远不会对冷冰冰的基准测试产生兴趣。
然而,HLE的发起人丹·亨德里克斯(Dan Hendrycks)原本想将其命名为“人类最后一战”,但大家认为这个名字过于戏剧化,最终放弃。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260541923.html