岁末年初,人工智能领域上演了一场备受瞩目的终极较量。OpenAI祭出了备受期待的年度王牌GPT-5.2,却未能如愿赢得市场青睐,反而在发布48小时内遭遇全网如潮的批评声浪。多项独立第三方数据实证显示,谷歌的Gemini 3 Pro模型在综合能力上已然占据绝对优势,成为当前AI赛道的真正领跑者。
尽管OpenAI全力推出了GPT-5.2这张「年度王牌」,但在这场与谷歌的关键战役中并未占据上风...
权威研究机构Epoch AI发布的最新评估报告指出,GPT-5.2的综合能力指数(ECI)得分为152分,虽处于行业高位,但仍略逊于Gemini 3 Pro,屈居次席。
在涉及数学、推理、知识等多个维度的基准测试中,GPT-5.2的表现并未实现「全面领先」。
在由知名数学家陶哲轩联合百位学者共同设计的FrontierMath数学挑战中,GPT-5.2仅在T1至T3难度级别中保持优势,而最高难度的T4级别依然是Gemini 3的稳固阵地。
此外,在国际象棋解题(Chess Puzzles)项目中,GPT-5.2成功摘得头名。
一个值得关注的例外出现在SimpleQA Verified可信度测试中,GPT-5.2的得分甚至不及前代版本GPT-5.1,这意味着其在迭代更新后,回答的准确性与可靠性反而有所下降。
不仅如此,多个来自第三方的基准评测结果均表明,GPT-5.2的实际性能远未达到外界预期的高度,未能成功超越Gemini 3。
在OCR-Arena、simple-bench、Live-Bench等热门评测平台上,GPT-5.2的排名甚至落后于Anthropic公司的Claude Opus 4.5模型。
发布仅两天,GPT-5.2并未在业界激起巨大波澜,反而在开发者社区中引发了大量的质疑与批评。
为了应对这场严峻挑战,OpenAI内部已拉响「红色警报」,将改进ChatGPT用户体验提升至最高优先级。
更为激进的是,公司内部甚至暂停了通用人工智能(AGI)的研发工作,文本转视频模型Sora的开发也暂缓八周,显露出背水一战的决心。
然而,在行业观察家看来,OpenAI至今仍未扭转其被动的竞争局面。
有GPT-5的重度用户公开表达不满,尖锐地指出「GPT-5.2的交互体验僵化,距离变成一块冷漠的石头也不远了」。
三年前,谷歌因在AI赛道起步迟缓,被OpenAI的ChatGPT抢尽了市场先机与风头。
近日,谷歌联合创始人谢尔盖·布林重返斯坦福大学发表演讲,公开反思并承认了昔日的「最大战略失误」:过于担忧AI模型输出不当内容,导致错失了一个时代的发展机遇。
如今,凭借Gemini 3 Pro与Nano Banana Pro的强势组合,谷歌已成功重返AI浪潮的巅峰。
风水轮流转。这一次,轮到了OpenAI在2025年这场至关重要的行业战役中陷入被动。
尽管奥特曼在发布首日激动地宣布,GPT-5.2的API调用量已突破万亿token,且增长势头迅猛。
此前有媒体爆料,代号为「大蒜」(Garlic)的GPT-5.2,原定于明年初正式发布。
整个硅谷科技圈曾流传一种观点——OpenAI在模型预训练方面可能已触及瓶颈,甚至GPT-5.1可能主要基于GPT-4o进行后期优化而来,导致其性能提升幅度有限。
实际情况似乎印证了这一点,OpenAI在模型规模扩展(Scaling)上确实遇到了挑战。
在GPT-5.2(大蒜)的研发过程中,有爆料称OpenAI旨在解决预训练阶段遇到的一些关键技术难题——改进此前「效果最佳」且「参数量更大」的预训练模型。
在内部,OpenAI整合了在开发「Shallotpeat」项目期间修复的技术缺陷,积累了大量预训练相关的经验。
正如相关报道所言,最关键的突破理应发生在「预训练阶段」。
但以上信息均来源于媒体报道。OpenAI是否真的在预训练技术上实现了重大飞跃,外界仍难以确知。
从官方宣称的在部分基准测试中击败Gemini 3的结果来推测,GPT-5.2在预训练方面可能取得了一定程度的改进。
然而,从多家第三方评测机构和用户的实际反馈来看,GPT-5.2在底层技术迭代上,并未实现颠覆性的突破。
Epoch AI另一项针对长程任务性能的评估显示,顶尖AI大模型中,Gemini 3依然保持最强实力——
Gemini 3 Pro:可持续处理约4.9小时时长的任务
GPT-5.2:可持续处理约3.5小时时长的任务
Opus 4.5:可持续处理约2.6小时时长的任务
正如工程师Dan Mac所分析,Gemini 3 Pro之所以展现出更深入、更通用的智能,核心在于谷歌拥有业界最强的预训练技术。
而GPT-5.2在某些特定任务上表现出的专用智能,则主要是OpenAI在后期训练(Post-training)阶段进行精细优化的结果。
据《纽约时报》最新爆料,在接下来的几周内,OpenAI将继续把重心放在ChatGPT的体验优化上。
同时,他们正在紧锣密鼓地筹备明年初的一次规模更大的新品发布。
在内部,OpenAI正并行推进面向企业(2B)和消费者(2C)的「双线作战」战略。
OpenAI也在积极探索其他业务方向,包括涉足广告和电子商务领域的相关尝试。
尽管遭遇吐槽,他们仍在探索一种「更为克制」的商业模式,例如尝试通过ChatGPT对话界面直接完成商品交易,并从其中抽取佣金。
在企业级市场方面,OpenAI正致力于将支撑ChatGPT的同套先进AI技术整合到企业软件解决方案中。
数据显示,ChatGPT的周活跃用户数已突破8亿,其市场占有率约为76%。
有AI领域资深人士评论道,「消费级AI市场几乎就等同于OpenAI,如果失去了这一主导地位,这家公司的价值将大打折扣」。
然而,在过去12个月里,全球范围内已涌现出多家AI初创公司,它们开发出的技术已经能够匹敌,甚至在某些特定方面超越了OpenAI的领先模型。
谷歌Gemini 3 Pro的横空出世,对OpenAI的核心业务而言无疑是一次沉重的打击。
从广大网友的实际测试角度来看,GPT-5.2确实还存在巨大的改进空间。
有用户忍无可忍,直言OpenAI完全忽视了用户体验:
GPT-5.2的回复语气冰冷淡漠,堪比北极,它似乎完全无视了交互的自然性与友好性,「一味地朝着错误的方向迭代,将原本流畅、自然的对话体验越改越糟糕,最终变成充满机械说教和僵硬回复的产物,然后还将此作为某种技术胜利来宣传。」
OpenAI如今被Gemini 3的强势表现震慑,也算是情理之中。
例如,在视觉推理任务上,Gemini 3 Pro的表现完全碾压了GPT-5.2。
在3D模型生成方面,GPT-5.2不仅速度更慢、成本更高,总体输出质量也不及Gemini 3。
在越界小说(一种以突破社会规范与禁忌主题为特色的文学类型)生成测试中,GPT-5.2排名垫底,表现不如Gemini 3 Pro、Claude 4.5 Opus以及Grok 4等模型:
在前端代码生成能力上,Gemini 3大幅领先,GPT-5.2仍难以望其项背。
在相同的设计提示词下,针对一个健身仪表盘首页的设计任务,超过53万名网友对Gemini 3、GPT-5.2和Claude Opus 4.5的生成结果进行了讨论与比较。
提示词内容:健身仪表盘首页。顶部为每周活动概览(紧凑型),今日消耗卡路里及环形进度条(紧凑卡片),卡路里卡片下方为连续锻炼计数器,底部为周度锻炼柱状图。移动端应用,单屏显示。视觉风格:浅色模式,柔和的乳白色背景,圆角卡片带有细微阴影,珊瑚色作为主要强调色,电子蓝用于图表和高亮部分。简洁的无衬线字体排版,现代卡片式布局。情绪:激励人心且充满活力。清新、纯净且平易近人。现代健康美学,令人感到鼓舞和振奋。
GPT-5.2的生成结果在多次比较中几乎次次垫底:
开发者Mattia利用AI搜索模型Perplexity分析了全部评论,结论显示Gemini 3是这场设计比拼的最终赢家!
如果以上案例仅是个别现象,那么下列来自各评测平台的数据则不会说谎:GPT-5.2的综合表现确实不及Gemini 3 Pro。
在预测市场平台Ploymarket上,大部分参与者认为谷歌在2025年底拥有综合实力最佳的AI模型。
在网友Lisan al Gaib创建的小型手动性能对比基准Dubesors上,Gemini 3 Pro高居榜首,而GPT-5.2仅排在第16名。
专注于AI安全研究并致力于提升公共讨论质量的人工智能安全中心(CAIS),发布了最新的CAIS AI Dashboard评测结果。数据显示,Gemini 3 Pro在文本和视觉能力指数上再次胜出,仅在风险控制指数上略逊于GPT-5.2。
在文本能力指数的细分测试中,Gemini 3 Pro仅在ARC-AGI-2一项中落后,而GPT-5.2则在其他多项测试中全线溃败!
在视觉能力指数测试中,Gemini 3 Pro再次几乎取得全胜,其平均得分比GPT-5.2高出4.5分!
在风险控制指数测试中,GPT-5.2领先于Gemini 3 Pro,但仍落后于Claude Opus 4.5和Claude Sonnet 4.5。
在评估语言模型驱动自主智能体能力的测试平台Terminus上,Gemini 3.0 Pro与GPT-5.2的表现几乎不分伯仲,但若与GPT-5.2的高推理模式相比,Gemini 3.0 Pro的平均成功率仍高出0.2%。
此外,网友也在其他基准测试中进行了验证,例如SWE-Bench、IUMB等:
总而言之,GPT-5.2疑似在多场重要的基准测试中翻车,其表现似乎全面落后于竞争对手Gemini 3:
在GPT-5.2发布当天,奥特曼还向外界预告,接下来的一周还会有「圣诞礼物」奉上。
外界猜测,这款新品很可能就是下一代的GPT Image v2图像生成模型。
几天前,两款代号分别为「栗子」和「榛子」的神秘AI图像模型曾在LM Arena平台上展开测试。
但是,开发者实测后表示,目前来看OpenAI图像模型的前景并不乐观。
在图像生成与编辑能力方面,GPT图像模型目前远落后于搭载Gemini 3技术的Nano Banana Pro。
而且其输出的图像结果,存在一系列明显问题——包括色调偏黄、逻辑性差、画面元素一致性弱、整体图像质量较低、对世界常识认知不足等。
据称,这款图像模型的底层技术基底,可能仍然源自早期的GPT-4o架构。
2025年的年终AI霸主之争,真的已经尘埃落定了吗?或许,新一轮的竞争才刚刚拉开序幕。
https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html
https://dashboard.safe.ai/
本文由主机测评网于2026-02-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223985.html