当前位置:首页 > 科技资讯 > 正文

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座

岁末年初,人工智能领域上演了一场备受瞩目的终极较量。OpenAI祭出了备受期待的年度王牌GPT-5.2,却未能如愿赢得市场青睐,反而在发布48小时内遭遇全网如潮的批评声浪。多项独立第三方数据实证显示,谷歌的Gemini 3 Pro模型在综合能力上已然占据绝对优势,成为当前AI赛道的真正领跑者。

尽管OpenAI全力推出了GPT-5.2这张「年度王牌」,但在这场与谷歌的关键战役中并未占据上风...

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第1张

权威研究机构Epoch AI发布的最新评估报告指出,GPT-5.2的综合能力指数(ECI)得分为152分,虽处于行业高位,但仍略逊于Gemini 3 Pro,屈居次席。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第2张

在涉及数学、推理、知识等多个维度的基准测试中,GPT-5.2的表现并未实现「全面领先」。

在由知名数学家陶哲轩联合百位学者共同设计的FrontierMath数学挑战中,GPT-5.2仅在T1至T3难度级别中保持优势,而最高难度的T4级别依然是Gemini 3的稳固阵地。

此外,在国际象棋解题(Chess Puzzles)项目中,GPT-5.2成功摘得头名。

一个值得关注的例外出现在SimpleQA Verified可信度测试中,GPT-5.2的得分甚至不及前代版本GPT-5.1,这意味着其在迭代更新后,回答的准确性与可靠性反而有所下降。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第3张

不仅如此,多个来自第三方的基准评测结果均表明,GPT-5.2的实际性能远未达到外界预期的高度,未能成功超越Gemini 3。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第4张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第5张

在OCR-Arena、simple-bench、Live-Bench等热门评测平台上,GPT-5.2的排名甚至落后于Anthropic公司的Claude Opus 4.5模型。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第6张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第7张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第8张

发布仅两天,GPT-5.2并未在业界激起巨大波澜,反而在开发者社区中引发了大量的质疑与批评。

为了应对这场严峻挑战,OpenAI内部已拉响「红色警报」,将改进ChatGPT用户体验提升至最高优先级。

更为激进的是,公司内部甚至暂停了通用人工智能(AGI)的研发工作,文本转视频模型Sora的开发也暂缓八周,显露出背水一战的决心。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第9张

然而,在行业观察家看来,OpenAI至今仍未扭转其被动的竞争局面。

有GPT-5的重度用户公开表达不满,尖锐地指出「GPT-5.2的交互体验僵化,距离变成一块冷漠的石头也不远了」。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第10张

年终巅峰之战,OpenAI是否已然落败?

三年前,谷歌因在AI赛道起步迟缓,被OpenAI的ChatGPT抢尽了市场先机与风头。

近日,谷歌联合创始人谢尔盖·布林重返斯坦福大学发表演讲,公开反思并承认了昔日的「最大战略失误」:过于担忧AI模型输出不当内容,导致错失了一个时代的发展机遇。

如今,凭借Gemini 3 Pro与Nano Banana Pro的强势组合,谷歌已成功重返AI浪潮的巅峰。

风水轮流转。这一次,轮到了OpenAI在2025年这场至关重要的行业战役中陷入被动。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第11张

尽管奥特曼在发布首日激动地宣布,GPT-5.2的API调用量已突破万亿token,且增长势头迅猛。

此前有媒体爆料,代号为「大蒜」(Garlic)的GPT-5.2,原定于明年初正式发布。

整个硅谷科技圈曾流传一种观点——OpenAI在模型预训练方面可能已触及瓶颈,甚至GPT-5.1可能主要基于GPT-4o进行后期优化而来,导致其性能提升幅度有限

实际情况似乎印证了这一点,OpenAI在模型规模扩展(Scaling)上确实遇到了挑战。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第12张

预训练规模扩展,成效或许有限

在GPT-5.2(大蒜)的研发过程中,有爆料称OpenAI旨在解决预训练阶段遇到的一些关键技术难题——改进此前「效果最佳」且「参数量更大」的预训练模型。

在内部,OpenAI整合了在开发「Shallotpeat」项目期间修复的技术缺陷,积累了大量预训练相关的经验。

正如相关报道所言,最关键的突破理应发生在「预训练阶段」。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第13张

但以上信息均来源于媒体报道。OpenAI是否真的在预训练技术上实现了重大飞跃,外界仍难以确知。

从官方宣称的在部分基准测试中击败Gemini 3的结果来推测,GPT-5.2在预训练方面可能取得了一定程度的改进。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第14张

然而,从多家第三方评测机构和用户的实际反馈来看,GPT-5.2在底层技术迭代上,并未实现颠覆性的突破。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第15张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第16张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第17张

Epoch AI另一项针对长程任务性能的评估显示,顶尖AI大模型中,Gemini 3依然保持最强实力——

Gemini 3 Pro:可持续处理约4.9小时时长的任务

GPT-5.2:可持续处理约3.5小时时长的任务

Opus 4.5:可持续处理约2.6小时时长的任务

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第18张

正如工程师Dan Mac所分析,Gemini 3 Pro之所以展现出更深入、更通用的智能,核心在于谷歌拥有业界最强的预训练技术。

而GPT-5.2在某些特定任务上表现出的专用智能,则主要是OpenAI在后期训练(Post-training)阶段进行精细优化的结果。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第19张

明年初,OpenAI或将有更大动作

据《纽约时报》最新爆料,在接下来的几周内,OpenAI将继续把重心放在ChatGPT的体验优化上。

同时,他们正在紧锣密鼓地筹备明年初的一次规模更大的新品发布。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第20张

在内部,OpenAI正并行推进面向企业(2B)和消费者(2C)的「双线作战」战略。

OpenAI也在积极探索其他业务方向,包括涉足广告和电子商务领域的相关尝试。

尽管遭遇吐槽,他们仍在探索一种「更为克制」的商业模式,例如尝试通过ChatGPT对话界面直接完成商品交易,并从其中抽取佣金。

在企业级市场方面,OpenAI正致力于将支撑ChatGPT的同套先进AI技术整合到企业软件解决方案中。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第21张

数据显示,ChatGPT的周活跃用户数已突破8亿,其市场占有率约为76%。

有AI领域资深人士评论道,「消费级AI市场几乎就等同于OpenAI,如果失去了这一主导地位,这家公司的价值将大打折扣」。

然而,在过去12个月里,全球范围内已涌现出多家AI初创公司,它们开发出的技术已经能够匹敌,甚至在某些特定方面超越了OpenAI的领先模型。

谷歌Gemini 3 Pro的横空出世,对OpenAI的核心业务而言无疑是一次沉重的打击。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第22张

Gemini 3全方位压制GPT-5.2,OpenAI只是虚张声势?

从广大网友的实际测试角度来看,GPT-5.2确实还存在巨大的改进空间。

有用户忍无可忍,直言OpenAI完全忽视了用户体验:

GPT-5.2的回复语气冰冷淡漠,堪比北极,它似乎完全无视了交互的自然性与友好性,「一味地朝着错误的方向迭代,将原本流畅、自然的对话体验越改越糟糕,最终变成充满机械说教和僵硬回复的产物,然后还将此作为某种技术胜利来宣传。」

OpenAI如今被Gemini 3的强势表现震慑,也算是情理之中。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第23张

例如,在视觉推理任务上,Gemini 3 Pro的表现完全碾压了GPT-5.2。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第24张

3D模型生成方面,GPT-5.2不仅速度更慢、成本更高,总体输出质量也不及Gemini 3。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第25张

越界小说(一种以突破社会规范与禁忌主题为特色的文学类型)生成测试中,GPT-5.2排名垫底,表现不如Gemini 3 Pro、Claude 4.5 Opus以及Grok 4等模型:

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第26张

前端代码生成能力上,Gemini 3大幅领先,GPT-5.2仍难以望其项背。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第27张

在相同的设计提示词下,针对一个健身仪表盘首页的设计任务,超过53万名网友对Gemini 3、GPT-5.2和Claude Opus 4.5的生成结果进行了讨论与比较。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第28张

提示词内容:健身仪表盘首页。顶部为每周活动概览(紧凑型),今日消耗卡路里及环形进度条(紧凑卡片),卡路里卡片下方为连续锻炼计数器,底部为周度锻炼柱状图。移动端应用,单屏显示。视觉风格:浅色模式,柔和的乳白色背景,圆角卡片带有细微阴影,珊瑚色作为主要强调色,电子蓝用于图表和高亮部分。简洁的无衬线字体排版,现代卡片式布局。情绪:激励人心且充满活力。清新、纯净且平易近人。现代健康美学,令人感到鼓舞和振奋。

GPT-5.2的生成结果在多次比较中几乎次次垫底:

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第29张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第30张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第31张

开发者Mattia利用AI搜索模型Perplexity分析了全部评论,结论显示Gemini 3是这场设计比拼的最终赢家!

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第32张

如果以上案例仅是个别现象,那么下列来自各评测平台的数据则不会说谎:GPT-5.2的综合表现确实不及Gemini 3 Pro。

GPT-5.2在多平台评测中遭遇滑铁卢

在预测市场平台Ploymarket上,大部分参与者认为谷歌在2025年底拥有综合实力最佳的AI模型。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第33张

在网友Lisan al Gaib创建的小型手动性能对比基准Dubesors上,Gemini 3 Pro高居榜首,而GPT-5.2仅排在第16名。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第34张

专注于AI安全研究并致力于提升公共讨论质量的人工智能安全中心(CAIS),发布了最新的CAIS AI Dashboard评测结果。数据显示,Gemini 3 Pro在文本和视觉能力指数上再次胜出,仅在风险控制指数上略逊于GPT-5.2。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第35张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第36张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第37张

在文本能力指数的细分测试中,Gemini 3 Pro仅在ARC-AGI-2一项中落后,而GPT-5.2则在其他多项测试中全线溃败!

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第38张

在视觉能力指数测试中,Gemini 3 Pro再次几乎取得全胜,其平均得分比GPT-5.2高出4.5分!

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第39张

在风险控制指数测试中,GPT-5.2领先于Gemini 3 Pro,但仍落后于Claude Opus 4.5和Claude Sonnet 4.5。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第40张

在评估语言模型驱动自主智能体能力的测试平台Terminus上,Gemini 3.0 Pro与GPT-5.2的表现几乎不分伯仲,但若与GPT-5.2的高推理模式相比,Gemini 3.0 Pro的平均成功率仍高出0.2%。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第41张

此外,网友也在其他基准测试中进行了验证,例如SWE-Bench、IUMB等:

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第42张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第43张

总而言之,GPT-5.2疑似在多场重要的基准测试中翻车,其表现似乎全面落后于竞争对手Gemini 3:

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第44张

奥特曼预告的圣诞惊喜

在GPT-5.2发布当天,奥特曼还向外界预告,接下来的一周还会有「圣诞礼物」奉上。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第45张

外界猜测,这款新品很可能就是下一代的GPT Image v2图像生成模型。

几天前,两款代号分别为「栗子」和「榛子」的神秘AI图像模型曾在LM Arena平台上展开测试。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第46张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第47张

但是,开发者实测后表示,目前来看OpenAI图像模型的前景并不乐观。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第48张

在图像生成与编辑能力方面,GPT图像模型目前远落后于搭载Gemini 3技术的Nano Banana Pro。

而且其输出的图像结果,存在一系列明显问题——包括色调偏黄、逻辑性差、画面元素一致性弱、整体图像质量较低、对世界常识认知不足等。

据称,这款图像模型的底层技术基底,可能仍然源自早期的GPT-4o架构。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第49张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第50张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第51张 2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第52张

2025年的年终AI霸主之争,真的已经尘埃落定了吗?或许,新一轮的竞争才刚刚拉开序幕。

2025年终AI模型对决:GPT-5.2全面评测失利,Gemini 3 Pro登顶王者宝座 GPT-5.2  Gemini Pro OpenAI 基准测试 第53张

参考资料:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

https://dashboard.safe.ai/