当前位置:首页 > 科技资讯 > 正文

GPT-5.2:智能模型遭遇用户吐槽

网友纷纷吐槽GPT-5.2的种种不足。

网络上充斥着对GPT-5.2的负面评价。OpenAI在十周年之际推出了最新的顶级模型GPT-5.2系列,官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”。然而,在众多基准测试中表现出色的GPT-5.2,却在用户口中遭遇了口碑反转。

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第1张

风投公司Menlo Ventures合伙人@deedydas发帖称,GPT 5.2比以往任何时候都更聪明,但OpenAI的核心消费者群体仍然怀念4o。Reddit上的ChatGPT用户普遍认为GPT-5.2太平淡、过于安全,“把成年人当幼儿园小孩对待”,而且“不像是升级,反而像是倒退”。

这是OpenAI的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第2张

SimpleBench测试结果不尽人意

有网友晒出GPT-5.2在SimpleBench上的“成绩单”,GPT-5.2的得分低于Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro的表现也没好多少,勉强超过GPT-5。

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第3张

SimpleBench是一个由AI Explained(YouTube频道)推出的基准测试,专门测AI的“常识推理”能力。不同于MMLU/GPQA那种AI能刷高分的“学术题”,SimpleBench更接地气,测的是“像人一样思考”。

大家本以为GPT-5.1是大跃进,结果SimpleBench测试分数一出来,网友开启群嘲模式,Reddit上各种“失望”、“倒退”的帖子。

实际应用中的表现令人失望

除了基准测试外,GPT-5.2在实际应用中的表现也令人失望。有网友发现,GPT-5.2在回答某些简单问题时也会出错。

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第4张

另一位网友复刻了“garlic有几个r”的提示词,并测试了多个AI模型。结果除了GPT-5.2回答错误外,其他几款模型均过关。

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第5张

总之,GPT-5.2的回答很不稳定,有的回答正确,有的胡说八道。有网友推测,和上个版本一样……发布后的头几个小时确实很糟糕,但之后他们会修复问题,然后就能按预期运行了。

情感智能堪忧

除了技术上的问题外,GPT-5.2在情感智能方面也备受诟病。有用户向GPT-5.2倾诉“我有时也会恐慌发作”,GPT-5.2的回应竟然是“很高兴听到这个消息!”

GPT-5.2:智能模型遭遇用户吐槽 GPT-5.2 用户吐槽 不通人性 基准测试 第6张

最受诟病的还得是GPT-5.2的审查和安全拒绝机制。OpenAI宣传GPT-5.2为“更智能”的迭代版,并强化“安全完成”机制。但用户反馈这种“进步”以牺牲模型的共情力和语境感知为代价,导致日常互动变得僵硬、脱离人性,甚至有害。