近期,OpenAI CEO奥特曼在公司内部发布了一份备忘录,正式宣告公司进入“Code Red”紧急状态,这标志着OpenAI正面临来自谷歌和Anthropic等竞争对手的严峻挑战。
然而,更深层次的问题在于,整个AI行业正遭遇一个普遍存在的技术难题:训练成本急剧上升,模型规模不断膨胀,但性能提升却愈发有限。
根据斯坦福大学发布的《2025年AI指数报告》,从2019年至2022年,每增加10倍的训练成本,模型在主流基准测试上的性能平均能提升25%-35%。然而,进入2023年后,同样的成本投入所带来的性能提升却骤降至10%-15%。更糟糕的是,自2024年以来,即使训练成本翻倍,性能提升也往往不足5%,呈现出一种断崖式的投入产出比下跌。
这导致各家公司顶级模型的表现逐渐趋同,仿佛被某种无形天花板所限制。这一趋势引发了AI学术界和产业界的一场激烈争论:大语言模型是否已经走进了死胡同?
从用户数据来看,OpenAI的领先地位已经开始动摇。谷歌的Gemini 3模型在基准测试中超越了OpenAI,使得Gemini的月活用户激增。据谷歌第三季度财报披露,Gemini的月活已从7月的4.5亿增长至10月的6.5亿。
与此同时,Anthropic的Claude也在企业客户中越来越受欢迎。根据OpenRouter的数据,截至2025年11月末,Claude的周访问量已达0.41亿人次,较六周前增长了17.1%。
更严峻的消息是,据半导体行业分析公司SemiAnalysis透露,自2024年5月GPT-4o发布以来,OpenAI的顶尖研究人员再未成功完成一次大规模全面预训练。
这意味着GPT-5与GPT-4o之间并未经历真正的代际升级,更像是在GPT-4o基础上的微调和优化。SemiAnalysis的分析进一步指出:“预训练一个前沿模型是整个AI研发中最困难、资源最密集的挑战。而谷歌的TPU平台已经通过了这个测试,但OpenAI并未。”
预训练是训练大语言模型的第一步也是关键一步。在此阶段,模型需在海量文本数据上学习语言的基本规律。无法完成大规模预训练就无法迭代到下一个时代的模型,这对必须保持技术领先的OpenAI来说是致命的。
面对双重困境,奥特曼不得不调整策略,将重心转向优化现有产品。
奥特曼在备忘录中指出,公司需改进ChatGPT的个性化功能、提高速度和可靠性、扩大可回答的问题范围。为此,OpenAI决定推迟其他项目的开发,鼓励员工临时调岗,每天召开会议讨论ChatGPT的改进。
但OpenAI并非唯一陷入瓶颈的公司。整个AI行业都在面临同样的困境。从2024年底到2025年初,顶尖大模型的性能提升曲线出现明显平缓。
根据LMSYS Chatbot Arena的盲测数据,2024年6月时排名第一和第十的模型之间Elo评分差距超过150分。然而到了2025年11月这个差距已不足50分。所有主流模型在关键基准测试上的得分开始集中在一个狭窄区间内。
种种迹象表明曾经被奉为大语言模型黄金定律的Scaling Law正在失效。
造成这一结果的原因其实来自于大模型本身。大模型训练的核心任务是“预测下一个词”,当模型足够强时语言本身的不确定性就成为影响模型输出结果的变量。
此外数据枯竭也是一个严重问题。到GPT-4时OpenAI几乎已经学完整个互联网上高质量文本。剩余的是大量低质量内容使用这些数据进行训练会导致“模型崩溃”。
关于大语言模型是否进入死胡同这个问题一直充满争议。
以AI教母李飞飞为代表的维新派认为大语言模型不是万能的它只是AI系统中的一个组件。要实现真正的人工智能需将不同任务分配给不同模型。
李飞飞曾直言不讳地表示AGI是一个营销术语而非科学术语。现如今真正缺失的是“空间智能”即理解和操作三维物理世界的能力。
而OpenAI和Anthropic则持守旧观点奥特曼相信只要继续扩大语言模型投入更多数据和算力智能就会“自动涌现”。
这一争论无疑为AI未来的发展道路增添了更多不确定性和挑战。
本文由主机测评网于2026-05-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545522.html