长期以来被用户批评缺乏人情味的GPT-5,终于迎来了它的升级版本。
13日凌晨三点,OpenAI首席执行官奥特曼再次为自家产品发声。这次不再强调竞技场跑分,而是聚焦短板改进,主打倾听用户反馈,优化产品体验。
可以看出,OpenAI确实有些无奈。毕竟,GPT-5上线后,本应退役的GPT-4o因太受欢迎而被强行保留。新产品口碑不及旧款,任何公司都会急于证明自己。
那么,被推上前台的GPT-5.1,能否取代用户心中的赛博白月光?看完官网案例,评测者世超立即进行了实测。
结果如何?三个字概括:不理想。
需要说明,所有测试均在临时聊天环境中进行,避免任何AI记忆干扰。
首先测试奥特曼“尤其喜欢”的指令遵循能力,第一个问题就让它困惑。
明明要求回答六个字,却只输出五个字。而这六字游戏甚至是官方测试案例。
世超开始自我怀疑,反思是否因未使用英文。
但使用与官方完全相同的英语提示词后,GPT-5.1仍然答错。
不甘心的世超换了问题,让AI写一段200字的薯条颂,但全文不能出现“的”字。
答案表面符合要求,但文字却变成了繁体。
原以为是网络波动,但测试五遍全是繁体。去掉后半段强制指令后,回答恢复正常。
再看Gemini 2.5 pro,轻松给出正确答案,毫无差错。
测试至此,世超已产生强烈怀疑。尽管只是一次小更新,但三分之一的卖点不灵光,实在说不过去。
接下来是用户吐槽最多的GPT-5缺乏情感。官方称,GPT-5.1在GPT-5基础上变得“更温暖、更有对话性”,既能有趣,又能保持清晰有用。
说实话,从官网案例看,效果一般。GPT-4o原有的能力被GPT-5削弱,现在GPT-5.1仅回到起点,难以夸赞。
但测试仍需继续,世超询问经典失恋问题,结果对比明显,无论是GPT-5.1还是GPT-5,都与GPT-4o不在同一水平。
上图GPT-5.1,中图GPT-5,下图GPT-4o
不知大家是否感觉,GPT-5和GPT-5.1像在描述对人类情感的刻板印象,作为旁观者分析“失恋”的感受、原因和解决方案。
而GPT-4o的回答更像代入失恋角色,感同身受,先共情再鼓励,不愧是理想AI。
为避免冤枉,世超换了问题再问,这次感觉新版回答不如老版,连基本情感表达都缺失。
上图GPT-5,下图GPT-5.1
再查看官网更新公告,除了情感语气对比,还有自适应耗时对比图。
自适应优化,堪称GPT-5.1更新的最大亮点,毕竟前两项表现不佳。
这项优化简而言之,以往AI在不同难度问题上不会自动分配思考时间,询问杭州美食可能耗费与宇宙大爆炸相同的精力。
世超测试发现,效果明显。在简单逻辑问题上,左侧GPT-5.1思考速度明显快于右侧GPT-5。
而在复杂编程难题上,GPT-5更快给出错误结果,GPT-5.1思考更长时间后给出正确答案。
实际上,这对普通用户感知并不明显,但对于调用API的用户确是好事,可以在简单问题上节省成本,在难题上避免浪费。
除了GPT-5.1的版本变动,ChatGPT还有整体更新——个性化设置中可调整GPT回答风格,除默认外有七种人设可选。
这个功能颇有趣味,同一问题不同人设给出各异回答,风格差异显著。
例如,吐槽达人言辞直接犀利,技术宅富有探索欲,天马行空偏爱艺术表达,专业可靠则是纯粹工具人。
上图吐槽达人,中图技术宅,下图默认模式
相比默认模式,确实有些尴尬。但神奇的是,套用人设后,GPT的讨好感消失。
尤其是吐槽达人,几乎处处唱反调,反而具备大多数AI缺乏的思辨能力。面对不给钱却让卖力干活的话术毫不领情,清楚世超在PUA它。
平心而论,若说话方式能不这么尴尬,该模式的潜力可能远超默认模式。
总体而言,这次更新虽有亮点,但OpenAI带来的惊喜日益减少。
相较最初问世时的惊艳,爆火的GPT-4o生图功能,如今GPT-5或许不如不推出。
根据10月报告,GPT在2025年已走了一整年下坡路,市场份额持续萎缩。尽管抢占先机保住龙头地位,但AI竞争依然残酷。
Similarweb10月统计数据
一边是奥特曼四处拉投资,一边是产品核心质量渐趋平庸。
OpenAI,是时候拿出真本事了。
本文由主机测评网于2026-01-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119976.html