当前位置：首页 > 科技资讯 > 正文

OpenAI拉响红色警报：大语言模型遭遇天花板，未来路在何方？

主机测评网
科技资讯
2026-02-26
628

近日，OpenAI首席执行官山姆·奥特曼向内部发布备忘录，正式宣布公司进入“红色警报”（Code Red）紧急状态。

从表面来看，此举是为了应对来自谷歌和Anthropic等强劲对手的竞争压力。

然而，更深层次的原因在于OpenAI乃至整个行业都难以回避的技术瓶颈：随着训练成本急剧攀升和模型规模持续扩张，性能提升的幅度却日益收窄。根据斯坦福大学《2025年AI指数报告》的数据，2019年至2022年间，训练成本每增加10倍，主流基准测试中的模型性能平均提升25%至35%。但到了2023年之后，同等成本投入仅能带来10%至15%的性能增益。更令人担忧的是，自2024年以来，即使训练成本再度翻倍，性能提升往往不足5%，投入产出比呈断崖式下跌。各家头部模型的表现日趋同质化，仿佛集体撞上了一道无形的天花板。这一现象引发了AI学术界和产业界的激烈辩论：大语言模型是否已步入死胡同？

01

从用户数据来看，OpenAI的领先地位已然动摇。谷歌的Gemini 3模型在基准测试中超越了OpenAI，推动其月活用户激增。谷歌第三季度财报显示，Gemini的月活用户已从7月的4.5亿增长至10月的6.5亿。与此同时，Anthropic的Claude在企业客户中愈发受到青睐。根据OpenRouter的数据，截至2025年11月末，Claude的周访问量达到0.41亿人次，较六周前增长了17.1%。

OpenAI拉响红色警报：大语言模型遭遇天花板，未来路在何方？ OpenAI 大语言模型 Scaling Law失效技术瓶颈第1张

但更具冲击性的消息接踵而至。据半导体行业分析公司SemiAnalysis爆料，自2024年5月GPT-4o发布以来，OpenAI的顶尖研究团队再未成功完成过一次大规模的全面预训练。这意味着GPT-5与GPT-4o之间并未实现真正的代际升级，而更像是在GPT-4o基础上的微调和优化，而非全新训练的模型。SemiAnalysis在分析中犀利指出：“预训练前沿模型是整个AI研发中最艰巨、资源最密集的挑战。谷歌的TPU平台已决定性地通过了这一测试，而OpenAI却未能做到。”

预训练是训练大语言模型的基石阶段，模型在此过程中从海量文本数据中学习语言的基本规律，如语法、语义和事实知识。若无法完成大规模预训练，OpenAI便难以迭代至下一代模型，这对必须保持技术领先的企业而言是致命打击。MMLU的跑分进一步印证了SemiAnalysis的观点。MMLU（大规模多任务语言理解）是衡量大模型综合知识与推理能力的权威基准测试。结果显示，GPT-5的MMLU评分仅比GPT-4提升了10%至20%。要知道，Anthropic CEO达里奥·阿莫迪曾公开表示，2024至2025年间的大模型训练成本高达10亿至20亿美元，是前一年的10倍。而GPT-5的成本更是GPT-4（约6000万至1亿美元）的20至30倍。

面对如此双重困境，奥特曼不得不调整策略，将重心转向优化现有产品。他在备忘录中强调，公司需改进ChatGPT的个性化功能、提升速度和可靠性，并扩大可回答问题的范围。为此，OpenAI决定推迟广告、健康和购物AI代理以及名为Pulse的个人助手等项目，鼓励员工临时调岗，并每日召开专门会议讨论ChatGPT的改进方案。此前，OpenAI已于2025年10月拉响过“橙色警报”（Code Orange）。OpenAI内部警报分为三个级别：黄色、橙色、红色，颜色越深代表事态越严重。橙色警报对应明确的竞争威胁或产品危机，核心业务已出现“被动局面”，如市场份额被蚕食或用户流失，需“局部资源倾斜”应对。当时OpenAI成立了由产品、技术、算法核心负责人牵头的“应急优化小组”，调配50%以上的研发资源聚焦核心产品。

02

OpenAI并非唯一陷入瓶颈的公司，整个行业正面临相似困境。从2024年底到2025年初，顶尖大模型的性能提升曲线明显趋缓。根据LMSYS Chatbot Arena的盲测数据，2024年6月时，排名第一与第十的模型之间Elo评分差距超过150分；但到2025年11月，这一差距已收窄至不足50分。更值得注意的是，几乎所有主流模型在关键基准测试上的得分都集中在狭窄区间内。这意味着，即便各家公司投入的资源差异巨大（从数千万美元到数十亿美元不等），最终产出的模型性能却日益相似。2023年3月，OpenAI刚发布GPT-4时，其在MMLU测试中的得分为86.4%，而同期竞争对手的成绩大多在60%至75%之间，如Claude v1为75.6%，LLaMA-65仅为63.4%。然而到了2025年9月的MMLU-Pro（MMLU的进阶版，评分标准更严格），所有头部模型的得分均落在85%至90%之间，几乎没有差别。从更新频率看，Meta的Llama模型从第二代到第三代间隔约9个月，而Llama 3到计划中的Llama 4已超过15个月；Anthropic从Claude 3到Claude 4的间隔也长达11个月。种种迹象表明，曾被奉为大语言模型黄金定律的Scaling Law正逐渐失效。

造成这一结果的原因源于大模型本身。大模型训练的核心任务是“预测下一个词”。通过在海量文本上反复训练，模型逐步掌握了语法、常识和推理能力。当模型足够强大时，语言本身的不确定性便成为影响输出的变量。例如：“他把苹果放在桌子上，然后它就不见了。”这里的“它”指苹果还是桌子？从语法上讲，两种理解皆可。要弄清“它”的指代，需要的并非更佳的语法知识，而是对现实世界的常识判断。再如：“他把手机放在桌子上，然后它就倒了。”这里的“它”可能是手机或桌子——若桌子是廉价折叠桌，放手机可能使其倾倒；若手机壳打开，手机本身也可能倒下。缺乏上下文时，连人类也难以准确判断。这种由语言歧义和不确定性造成的误差，在统计学上称为“不可约误差”或“贝叶斯误差率”。即使拥有完美算法、无限数据和算力，这一误差也无法消除，它是问题固有的特性。

OpenAI拉响红色警报：大语言模型遭遇天花板，未来路在何方？ OpenAI 大语言模型 Scaling Law失效技术瓶颈第2张

人类语言充满不确定性。日常交流中，我们依赖语境、肢体语言、声调和共同背景知识传递信息。剥离这些后仅剩纯文本，信息损失巨大。大语言模型正是训练于这些纯文本，因此天生受限于不可约误差。当模型较弱时，它会犯语法、事实和逻辑等低级错误，通过增加数据、扩大模型和改进算法可解决。但当模型足够强大、不再犯低级错误时，剩余错误主要源于语言本身的不可约误差。至此，再投入巨额资源，提升也极为有限。

第二个问题是数据枯竭。到GPT-4时代，OpenAI几乎已将整个互联网上的高质量文本学尽，包括百科、数字图书馆、GitHub代码、Reddit讨论及各类专业论文和文档。可用高质量数据基本耗尽，剩下的多为低质量内容，如广告软文、垃圾帖子、重复内容和机器生成信息。为应对数据不足，一些厂商开始用AI生成数据训练AI，但这会引发严重问题——“模型崩溃”。简单说，若模型只依赖自身或其他模型产出的数据，其多样性会下降，甚至放大自身错误和偏见，最终导致模型愈发笨拙、输出单调。这类似于生物学中的近亲繁殖：长期近亲繁殖会导致基因多样性丧失、遗传缺陷放大，种群退化。模型崩溃也是同理。2024年发表在《Nature》上的一篇论文《当AI模型在递归生成的数据上训练时，会出现性能崩溃》系统研究了此问题。研究人员发现，在早期模型崩溃阶段，模型首先丢失数据分布尾部的信息；后期，整个数据分布收敛到极窄范围，与原始数据几乎无相似之处。实验中，用预训练语言模型生成文本，再用此文本训练新模型，如此反复几代后，模型的输出变得单调重复，原本数据中低频但重要的信息（如专业领域知识、小众正确观点）逐渐消失。每一代模型生成数据时，都倾向于生成训练数据中最常见、最“安全”的内容，低频边缘信息出现概率更低。经过几代迭代，这些信息彻底丢失。更棘手的是，如今互联网已充斥大量AI生成内容。ChatGPT发布后，网络文章、社交媒体帖子乃至学术论文都开始显现AI生成痕迹。若未来模型通过爬取互联网获取训练数据，不可避免地会混入这些AI内容。这意味着模型崩溃不再是实验室理论，而是整个AI行业都将面临的实际威胁。

03

关于大语言模型是否进入死胡同，这一直是争议焦点。以AI教母李飞飞为代表的维新派认为：大语言模型并非万能，它仅是AI系统中的一个组件。要实现真正的人工智能，需将不同类型的任务分配给不同模型。李飞飞直言AGI是营销术语而非科学术语，当前真正缺失的是“空间智能”，即理解和操作三维物理世界的能力。她认为未来AI系统可能是“世界模型”，其核心能力是理解三维空间、物理规律和因果关系，通过学习视频、图像和传感器数据而非文本来认知物理世界。世界模型使用严格的逻辑规则和数学证明技术，而非依赖统计模式。谷歌DeepMind开发的AlphaGeometry便是例证，它通过符号推理系统与神经网络结合，能解决奥林匹克几何问题。图灵奖得主、Meta前首席AI科学家杨立昆对语言模型路径的批评更为直接，他形容其为“给鹦鹉喂更大的芯片”。在他看来，语言模型仅学习统计规律、进行模式匹配，并未真正理解世界。要实现真正智能，AI必须建立对物理世界的模型，理解物体、空间、时间、因果关系等基本概念。届时，大语言模型将充当“翻译官”：用户用自然语言提出需求时，大语言模型负责理解并翻译成机器指令，分配给世界模型等子系统执行；任务完成后，再将结果翻译成自然语言输出给用户。

OpenAI和Anthropic则是守旧派。奥特曼认为，只要继续放大语言模型、投入更多数据和算力，智能就会“自动涌现”。他相信当模型规模达到临界点时，会突然展现质的飞跃，获得真正的理解与推理能力，这一观点被称为“规模假说”。OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维提出“压缩即理解”，称“如果你能把全世界的数据无损压缩进一个大语言模型的神经网络，那么模型内部就构建出了一个关于世界的真实模型”。Anthropic联合创始人杰拉德·卡普兰则认为语言模型本身可能不是智能，但可成为智能的基础，通过改进训练方法、增强安全性对齐、结合其他技术，语言模型路径仍有潜力达到AGI。MIT认知学家伊芙琳娜·费多林柯及多位MIT和伯克利学者在《Nature》期刊上发表文章指出：语言并非思维，人类思维独立于语言。婴儿在学会说话前已具备对物理世界和因果关系的认知，盲人和聋人虽缺失某些感官通道，但思维能力不受影响。语言主要是交流工具而非思维工具，因此语言模型不可能是真正的人工智能。