当前位置:首页 > 科技资讯 > 正文

AI超越人类考试:智慧竞赛的新篇章

2017年5月,全球围棋冠军柯洁在AlphaGo面前败下阵来,这一事件首次为我们提供了一个确定性的答案,关于机器是否会比人类更聪明这一关乎人类尊严的问题。

一年前尚能与之一较高下的李世石,成为了人类棋手在AI面前的最后一抹余晖。

然而,人类善于自我安慰,将智力转化为更复杂、难以解释的“智慧”,似乎我们仍在赢,而且是以更“高级”的方式赢。作为智慧道路上的先行者,人类既是选手又是裁判,设定了多种测试标准,美其名曰测试AI。AI超越人类,被认为是科技进步;若未超越,则人类再次胜利。

尽管我们渴望AI能“青出于蓝而胜于蓝”,但当真如冰雹般迅猛的进展来临时,大多数人会感到惊愕与不适。

起初,我们轻松用游戏测试AI,如今,连人类能参与的难度最高的考试也即将无法考验AI了。

一周前,马斯克发布了最新版的Grok-4大模型,声称其“比所有领域的博士都聪明”。

其在各类考试中的成绩堪称怪物级别:

我们熟知的SAT和GRE考试几乎满分,更难的考试如GPQA(研究生水平问答)准确率为88.9%,AIME25(美国数学邀请赛)准确率100%,USAMO25(美国数学奥林匹克竞赛)准确率61.9%。

最引人注目的是“人类最后的考试”(Humanity’s Last Exam,简称“HLM”),顾名思义,它代表了人类智力的极限挑战,用于衡量AI是否具备“类人智能”。

该考试由Scale AI和Center for AI Safety(CAIS)发布,包含3000道高难度题目,涉及100多个学科,由数百位专家出题,涵盖了人类智力任务中最具挑战性的部分。

题目分为简答题和选择题两类,前者占比80%,且数学题目占42%,因此高分绝非易事。

AI超越人类考试:智慧竞赛的新篇章 AI 人类考试 智慧 Grok-4 第1张

普通人能答对约5%的题目,而之前的大模型也大多未能超过10%。但Grok-4的出现大幅缩短了AI通过“人类最后考试”的时间,达到了50.7%的准确率,成为首个突破50%的大模型。

这个分数令人震惊,但由于考试难度极大且远离日常生活,难以直观理解其难度。后来找到了一个中国人都能理解的参考:上海交大联合深势科技团队在几乎同一时间使用DeepSeek-R1-0528模型在“人类最后考试”上取得32.1%的新纪录,代表国内大模型的顶尖水平(尽管很快被超越)。

AI超越人类考试:智慧竞赛的新篇章 AI 人类考试 智慧 Grok-4 第2张

大约一两周前,国内大模型集体测试了另一套“国民考试”——高考试题。

例如,字节跳动Seed团队用最新推出的通用模型Seed1.6测试了2025年山东卷高考真题(题目源自网络),满分750分。他们还找来了两位有联考判卷经验的高中老师进行匿名评估和多轮质检。

最终,Seed1.6在理科和文科分别考取了648和683的高分,在山东省的排名分别是4005名和211名。这个成绩在理科可以冲击武汉大学,文科则有望冲击清北。

AI超越人类考试:智慧竞赛的新篇章 AI 人类考试 智慧 Grok-4 第3张

媒体还用国产大模型测试了辽宁卷高考题,结果显示腾讯元宝(混元T1)在文科卷上更胜一筹。其文科成绩排到了全省第11名,理科成绩虽稍逊但仍能考上985院校。

AI超越人类考试:智慧竞赛的新篇章 AI 人类考试 智慧 Grok-4 第4张

以高考试卷为标准,DeepSeek与豆包、混元间几十分之差是考上985与清北的差距;而以HLM为标准,DeepSeek与Grok-4相差近40%。

“比所有领域的博士都聪明”的真实性尚未确定,但在刚结束高考的应届毕业生中,文科成绩能超过AI的已不多见。或许明年,大模型的高考成绩将彻底超越人类考生。

但我更倾向于认为,如同人们对AI在围棋领域的碾压已失去兴趣一般,高考等人类能参与的考试最终都将呈现AI的绝对优势以至于让人习以为常。

那时,人类可能会制定新的考试标准但不再与AI对比而是纯粹的AI竞赛;也可能这样的考试将不存在或变得稀少人们将更关注AI的应用和性价比毕竟无论是人类还是AI考试都只是过程之一创造价值才是最终目的。

但到那时人类在智慧上的优越感又要靠什么来维持呢?