当前位置:首页 > 科技资讯 > 正文

AI智商大比拼:顶尖模型上演智力对决

想象一下,如果AI能够像人类一样参加智商测试,那会是怎样的场景?这听起来像是科幻小说,但"Trackingai.org"项目却将它变成了现实。

该项目没有使用高深的技术术语和性能跑分,而是设计了一套模仿人类智商测验的试卷,让全球顶尖的语言模型展开了一场直接的“智商”对决。

这场对决的核心已超越了单纯的技术性能比较,它更像是一场AI界的“最强大脑”挑战赛,试图用人们最熟悉的方式,来衡量这些数字大脑的“聪明”程度。

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第1张

测试的方法有两种:一种是门萨智商测试,智商超过130即可加入由全球精英组成的门萨俱乐部;另一种是专门用于模型性能测试的智力问答测试集。

在这场挑战中,最新发布的GPT-5 Pro、谷歌的Gemini 2.5 Pro以及埃隆·马斯克主导的Grok 4,共同上演了一场精彩的智力大比拼。同时,一些曾经的王者和意想不到的“黑马”也在这份榜单上留下了自己的印记。

01

“御三家”的智商秀

在这场备受瞩目的AI智商测试中,三位“考生”无疑是全场的焦点:OpenAI的GPT-5 Pro、谷歌的Gemini 2.5 Pro以及xAI公司的Grok 4。这三个模型代表了当今世界闭源商业大模型的最高水平。当它们在同一个舞台上相遇时,人们不禁好奇:谁才是最聪明的“大脑”呢?

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第2张

在门萨组中,谷歌的Gemini 2.5 Pro智商达到了137,排名最高。在人类的智商评定体系中,130分以上即被视为“极超常”,而Gemini 2.5 Pro的能力已经与人类社会中最顶尖的那一小部分人相媲美。

OpenAI的o3虽然性能低于o3 Pro,但其智商却比o3 Pro高。作为GPT系列的最新成员,Chat GPT-5的智商只有121。而埃隆·马斯克旗下的Grok 4以独特风格和不受限制的回答方式闻名,其智商为125分。虽然不及前两位选手耀眼,但也已超越了人类的平均水平。

这场测试揭示了不同AI在“思考”和解决问题时所采用的路径、逻辑的严密程度及最终效果的差异。GPT-5 Pro展现了强大的抽象和系统化思维,Gemini 2.5 Pro表现出高效的模式识别能力,而Grok 4则通过更为探索性的分析路径,同样成功解决了问题。

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第3张

在数据集组中,排名又发生了变化。GPT-5 Pro排名第一,Gemini 2.5 Pro排名第二,o3 Pro排名第三,Grok 4排名第四。数据集组的难度高于门萨测试,测试题数量也更多。

02

“意难平”与“小惊喜”

在AI智商排行榜上,除了最顶端的明星,其他模型的故事同样引人深思。其中,最令人感到“意难平”的是Meta公司的Llama系列。

Llama系列曾是开源大模型领域的旗帜。然而,在这次智商测试中,Llama 4 Maverick的得分仅为98分。这个数字虽然接近人类智商的平均值100分,但在顶尖选手的赛场上,显然不够出色。

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第4张

然而,榜单也并非只有失意者。Deepseek R1的测试数据停留在5月底,其智商分数达到了102分。虽然这个数字只是略高于平均水平,但它超过了风头正劲的Llama 4 Maverick。

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第5张

DeepSeek R1的坚守和成绩有力地说明:提升AI的“智商”,并非只依赖于最新的数据和更大的模型规模。模型的架构设计、训练方法和算法的优化同样重要。

03

测试结果的意义与局限

这种模拟人类智商测试的方式最大的意义在于建立了沟通的桥梁。长期以来,评估AI模型性能的指标如MMLU、HellaSwag、ARC等虽重要,但对普通公众来说难以理解。而智商这个概念早已深入人心。

当我们可以说“这个AI的智商是137”时,其智能水平立刻变得具体、可感、可以比较了。这种通俗化的度量衡降低了公众理解AI能力的门槛。

AI智商大比拼:顶尖模型上演智力对决 AI智商测试 GPT-5 Pro Gemini 2.5 Grok 4 第6张

大模型的智商能超过130,意味着其处理标准化测试题的能力越来越强。更深层次地,它标志着AI的认知能力正在发生质的飞跃。然而,“Trackingai.org”也指出,对大模型做智商测试更多是出于娱乐目的。

因为智商测试主要衡量的是“聚合性思维”,即在给定规则和信息下通过逻辑演绎找到唯一正确答案的能力。这恰好是当前大型语言模型所擅长的领域——它们通过对海量数据的学习精通于模式识别和逻辑关联。

然而,人类智能还包含与之相对的“发散性思维”,即创造力、想象力和直觉等。这些是当前AI架构难以触及的。因此,AI的高智商更准确地说是其作为“逻辑分析引擎”性能卓越的体现。

无论如何,这场测试的结果都清晰地揭示了一个趋势:AI正成为人类有史以来最强大的认知工具。当系统的逻辑处理能力已经达到甚至超越人类天才的水平时,我们必须重新思考人机协作的范式。