当前位置:首页 > 科技资讯 > 正文

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功

【导读】号称满分屠榜的GPT-5.2,一发布就引发热议:究竟是性能巅峰还是“降智”翻车?许多网友现身表示,模型似乎比刚上线时弱了不少。但也有提前实测的网友力挺,它的实力确实强悍,甚至当得起GPT-6之称!

昨夜,OpenAI投下重磅炸弹,正式发布GPT-5.2模型。

根据官方公布的基准测试结果,GPT-5.2几乎在所有维度上都碾压了竞品Gemini 3 Pro,展现出统治级的表现。

GPT-5.2最擅长处理高经济价值任务,例如制作电子表格与PPT、编写与审查代码、分析长文档等,堪称职场效率神器。

更令人惊叹的是,在GDPval等严苛基准测试中,它有70.9%的概率能追平甚至超越人类专业人士的水平,实现质的飞跃。

可以说,这是OpenAI内部进入红色预警状态、甚至不惜调整AGI目标都要全力打造的战略产品,其核心使命便是狙击来势汹汹的Gemini 3。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第1张

那么,GPT-5.2的实际体验究竟如何?我们一探究竟。

GPT-5.2实测:上线即遇“降智”风波?

出乎意料的是,一则关于GPT-5.2翻车的帖子迅速在X平台引爆热议。测试者提问:“garlic”中有多少个字母R?模型竟回答:0个。这一低级错误瞬间引发用户对模型能力的质疑。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第2张

相比之下,其他同类模型的表现则稳定得多,能够准确回答字母统计问题。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第3张

究其根源,这其实是大型语言模型的通病:由于tokenization机制,模型难以直接统计字母个数,属于底层架构的局限。

不过,只要用户手动选择“Thinking”版本,GPT-5.2便能正确回答这一问题,展现其深层推理能力。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第4张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第5张

在Reddit社区,不少网友也反映:GPT-5.2刚发布时功能异常强大,但几小时后却明显“降智”,仿佛被暗中削弱。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第6张

有用户表示,自己早上八点半使用时尚且一切正常,喝完一杯咖啡后,GPT-5.2竟突然“变笨”,令人费解。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第7张

类似情况并非首次:似乎每次新模型发布几小时后,性能都会被悄然削弱,OpenAI此举究竟意欲何为?

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第8张

大佬现身说法:实力依旧强悍

尽管小插曲不断,但坊间对GPT-5.2的正面评价依然占据主流。

昨晚GPT-5.2一亮相,许多AI专家和开发者便为之震撼。

例如,有网友惊叹ARC-AGI 2基准上的巨大飞跃,直呼OpenAI究竟是如何做到的。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第9张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第10张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第11张

此前外界一度认为OpenAI已落后于谷歌,但GPT-5.2的横空出世彻底扭转了这一印象。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第12张

看来,OpenAI内部还储备着不少未公开的黑科技,GPT-5.2只是冰山一角。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第13张

有幸体验到GPT-5.2满血版的用户,对其一致给出好评。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第14张

沃顿商学院教授Ethan Mollick分享了自己的抢先体验,称GPT-5.2的性能令人印象深刻。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第15张

例如,模型能根据指令创建一个视觉上极具吸引力的着色器,模拟无限新哥特式塔楼城市淹没在汹涌海洋中的画面。这不仅严格遵循了指令,更在代码中体现了卓越的审美与结构设计。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第16张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第17张

随后,Mollick教授又让GPT-5.2绘制人类历年考试成绩图表。这项任务涉及大量资料查找与交叉引用,但模型一次性便生成了高质量结果,表现惊艳。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第18张

生成的图表不仅数据翔实,可视化效果也相当出色。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第19张

而Twigl代码实例更是展现了GPT-5.2强大的编码能力,能够生成复杂且富有创意的着色器程序。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第20张

推理、数学、编程领域的重大飞跃

Magicpathai CEO在长期测试后给出高度评价:GPT-5.2代表了复杂推理、数学、编程和模拟方面的一次重大飞跃。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第21张

他展示的实例中,GPT-5.2在单个文件中构建了完整的3D图形引擎,支持4K分辨率下的交互式控制,所有代码均从零手写,未调用任何外部库。

面对质疑,CEO明确表示所有图形与逻辑均为原生实现,证明了模型惊人的代码生成能力。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第22张

这意味着GPT-5.2的进步并非渐进式,而是彻底颠覆了编码助手的范式,实现了质的跨越。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第23张

这种日新月异的进步速度,令众多开发者目不暇接。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第24张

CEO进一步指出,GPT-5.2是OpenAI迄今为止最佳的智能体模型,能够连续调用大量工具而不会出错,且运行速度远超前代产品。在构建的多智能体协同测试中,GPT-5.2调用工具无需前导码,即使在长会话中也不会迷失方向。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第25张

更有趣的是,有用户让GPT-5.2用ASCII艺术描绘自己的内心世界,得到的答案充满哲理与震撼。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第26张

总体而言,大多数用户反馈GPT-5.2能够稳定处理实际工作,条理清晰,流程顺畅,显著优于容易出现中断的旧模型。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第27张

它对任务的理解更深,完成度更高,展现出强大的综合能力。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第28张

ARC Prize公布的数据显示,GPT-5.2 Pro(X-High)的最新SOTA得分高达90.5%,意味着AI效率在一年内提升了约390倍,进步惊人。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第29张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第30张

背后神秘华人团队浮出水面

与往常一样,GPT-5.2的辉煌成就离不开背后众多华人研究员的贡献。

最早预告GPT-5.2的OpenAI华人研究员、北大校友Yu Bai,本科就读于北大数学系,后在斯坦福获得统计学博士学位,是模型核心成员之一。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第31张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第32张

负责后训练的Yun Dai,本科毕业于清华大学,后在加州大学尔湾分校获得计算机科学硕士学位,为模型优化立下汗马功劳。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第33张

另一位OpenAI华人研究员Zuxin Liu,从事推理模型后训练工作。他本科毕业于北航,在CMU攻读硕士和博士学位,专攻强化学习与推理。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第34张

Aston Zhang在伊利诺伊大学厄巴纳-香槟分校获得博士学位后加入OpenAI,现为研究员。他特别感谢团队在提升多步骤任务处理能力方面的努力,尤其是GPT-5.2 Thinking版本的突破。

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第35张

GPT-5.2发布引热议:降智风波与实测惊艳,华人团队再立功 GPT-5.2 降智 实测性能 华人团队 第36张

总之,昨夜AI大战中,OpenAI凭借GPT-5.2打出了漂亮的一击。

接下来,谷歌将如何应对这场突如其来的挑战?我们拭目以待。

参考资料: 

https://x.com/skirano/status/1999182295685644366 

https://x.com/emollick/status/1999185085719887978