近日,OpenAI首席执行官山姆·奥特曼向内部发布备忘录,正式宣布公司进入“红色警报”(Code Red)紧急状态。
从表面来看,此举是为了应对来自谷歌和Anthropic等强劲对手的竞争压力。
然而,更深层次的原因在于OpenAI乃至整个行业都难以回避的技术瓶颈:随着训练成本急剧攀升和模型规模持续扩张,性能提升的幅度却日益收窄。根据斯坦福大学《2025年AI指数报告》的数据,2019年至2022年间,训练成本每增加10倍,主流基准测试中的模型性能平均提升25%至35%。但到了2023年之后,同等成本投入仅能带来10%至15%的性能增益。更令人担忧的是,自2024年以来,即使训练成本再度翻倍,性能提升往往不足5%,投入产出比呈断崖式下跌。各家头部模型的表现日趋同质化,仿佛集体撞上了一道无形的天花板。这一现象引发了AI学术界和产业界的激烈辩论:大语言模型是否已步入死胡同?
从用户数据来看,OpenAI的领先地位已然动摇。谷歌的Gemini 3模型在基准测试中超越了OpenAI,推动其月活用户激增。谷歌第三季度财报显示,Gemini的月活用户已从7月的4.5亿增长至10月的6.5亿。与此同时,Anthropic的Claude在企业客户中愈发受到青睐。根据OpenRouter的数据,截至2025年11月末,Claude的周访问量达到0.41亿人次,较六周前增长了17.1%。
但更具冲击性的消息接踵而至。据半导体行业分析公司SemiAnalysis爆料,自2024年5月GPT-4o发布以来,OpenAI的顶尖研究团队再未成功完成过一次大规模的全面预训练。这意味着GPT-5与GPT-4o之间并未实现真正的代际升级,而更像是在GPT-4o基础上的微调和优化,而非全新训练的模型。SemiAnalysis在分析中犀利指出:“预训练前沿模型是整个AI研发中最艰巨、资源最密集的挑战。谷歌的TPU平台已决定性地通过了这一测试,而OpenAI却未能做到。”
预训练是训练大语言模型的基石阶段,模型在此过程中从海量文本数据中学习语言的基本规律,如语法、语义和事实知识。若无法完成大规模预训练,OpenAI便难以迭代至下一代模型,这对必须保持技术领先的企业而言是致命打击。MMLU的跑分进一步印证了SemiAnalysis的观点。MMLU(大规模多任务语言理解)是衡量大模型综合知识与推理能力的权威基准测试。结果显示,GPT-5的MMLU评分仅比GPT-4提升了10%至20%。要知道,Anthropic CEO达里奥·阿莫迪曾公开表示,2024至2025年间的大模型训练成本高达10亿至20亿美元,是前一年的10倍。而GPT-5的成本更是GPT-4(约6000万至1亿美元)的20至30倍。
面对如此双重困境,奥特曼不得不调整策略,将重心转向优化现有产品。他在备忘录中强调,公司需改进ChatGPT的个性化功能、提升速度和可靠性,并扩大可回答问题的范围。为此,OpenAI决定推迟广告、健康和购物AI代理以及名为Pulse的个人助手等项目,鼓励员工临时调岗,并每日召开专门会议讨论ChatGPT的改进方案。此前,OpenAI已于2025年10月拉响过“橙色警报”(Code Orange)。OpenAI内部警报分为三个级别:黄色、橙色、红色,颜色越深代表事态越严重。橙色警报对应明确的竞争威胁或产品危机,核心业务已出现“被动局面”,如市场份额被蚕食或用户流失,需“局部资源倾斜”应对。当时OpenAI成立了由产品、技术、算法核心负责人牵头的“应急优化小组”,调配50%以上的研发资源聚焦核心产品。
OpenAI并非唯一陷入瓶颈的公司,整个行业正面临相似困境。从2024年底到2025年初,顶尖大模型的性能提升曲线明显趋缓。根据LMSYS Chatbot Arena的盲测数据,2024年6月时,排名第一与第十的模型之间Elo评分差距超过150分;但到2025年11月,这一差距已收窄至不足50分。更值得注意的是,几乎所有主流模型在关键基准测试上的得分都集中在狭窄区间内。这意味着,即便各家公司投入的资源差异巨大(从数千万美元到数十亿美元不等),最终产出的模型性能却日益相似。2023年3月,OpenAI刚发布GPT-4时,其在MMLU测试中的得分为86.4%,而同期竞争对手的成绩大多在60%至75%之间,如Claude v1为75.6%,LLaMA-65仅为63.4%。然而到了2025年9月的MMLU-Pro(MMLU的进阶版,评分标准更严格),所有头部模型的得分均落在85%至90%之间,几乎没有差别。从更新频率看,Meta的Llama模型从第二代到第三代间隔约9个月,而Llama 3到计划中的Llama 4已超过15个月;Anthropic从Claude 3到Claude 4的间隔也长达11个月。种种迹象表明,曾被奉为大语言模型黄金定律的Scaling Law正逐渐失效。
造成这一结果的原因源于大模型本身。大模型训练的核心任务是“预测下一个词”。通过在海量文本上反复训练,模型逐步掌握了语法、常识和推理能力。当模型足够强大时,语言本身的不确定性便成为影响输出的变量。例如:“他把苹果放在桌子上,然后它就不见了。”这里的“它”指苹果还是桌子?从语法上讲,两种理解皆可。要弄清“它”的指代,需要的并非更佳的语法知识,而是对现实世界的常识判断。再如:“他把手机放在桌子上,然后它就倒了。”这里的“它”可能是手机或桌子——若桌子是廉价折叠桌,放手机可能使其倾倒;若手机壳打开,手机本身也可能倒下。缺乏上下文时,连人类也难以准确判断。这种由语言歧义和不确定性造成的误差,在统计学上称为“不可约误差”或“贝叶斯误差率”。即使拥有完美算法、无限数据和算力,这一误差也无法消除,它是问题固有的特性。
人类语言充满不确定性。日常交流中,我们依赖语境、肢体语言、声调和共同背景知识传递信息。剥离这些后仅剩纯文本,信息损失巨大。大语言模型正是训练于这些纯文本,因此天生受限于不可约误差。当模型较弱时,它会犯语法、事实和逻辑等低级错误,通过增加数据、扩大模型和改进算法可解决。但当模型足够强大、不再犯低级错误时,剩余错误主要源于语言本身的不可约误差。至此,再投入巨额资源,提升也极为有限。
第二个问题是数据枯竭。到GPT-4时代,OpenAI几乎已将整个互联网上的高质量文本学尽,包括百科、数字图书馆、GitHub代码、Reddit讨论及各类专业论文和文档。可用高质量数据基本耗尽,剩下的多为低质量内容,如广告软文、垃圾帖子、重复内容和机器生成信息。为应对数据不足,一些厂商开始用AI生成数据训练AI,但这会引发严重问题——“模型崩溃”。简单说,若模型只依赖自身或其他模型产出的数据,其多样性会下降,甚至放大自身错误和偏见,最终导致模型愈发笨拙、输出单调。这类似于生物学中的近亲繁殖:长期近亲繁殖会导致基因多样性丧失、遗传缺陷放大,种群退化。模型崩溃也是同理。2024年发表在《Nature》上的一篇论文《当AI模型在递归生成的数据上训练时,会出现性能崩溃》系统研究了此问题。研究人员发现,在早期模型崩溃阶段,模型首先丢失数据分布尾部的信息;后期,整个数据分布收敛到极窄范围,与原始数据几乎无相似之处。实验中,用预训练语言模型生成文本,再用此文本训练新模型,如此反复几代后,模型的输出变得单调重复,原本数据中低频但重要的信息(如专业领域知识、小众正确观点)逐渐消失。每一代模型生成数据时,都倾向于生成训练数据中最常见、最“安全”的内容,低频边缘信息出现概率更低。经过几代迭代,这些信息彻底丢失。更棘手的是,如今互联网已充斥大量AI生成内容。ChatGPT发布后,网络文章、社交媒体帖子乃至学术论文都开始显现AI生成痕迹。若未来模型通过爬取互联网获取训练数据,不可避免地会混入这些AI内容。这意味着模型崩溃不再是实验室理论,而是整个AI行业都将面临的实际威胁。
关于大语言模型是否进入死胡同,这一直是争议焦点。以AI教母李飞飞为代表的维新派认为:大语言模型并非万能,它仅是AI系统中的一个组件。要实现真正的人工智能,需将不同类型的任务分配给不同模型。李飞飞直言AGI是营销术语而非科学术语,当前真正缺失的是“空间智能”,即理解和操作三维物理世界的能力。她认为未来AI系统可能是“世界模型”,其核心能力是理解三维空间、物理规律和因果关系,通过学习视频、图像和传感器数据而非文本来认知物理世界。世界模型使用严格的逻辑规则和数学证明技术,而非依赖统计模式。谷歌DeepMind开发的AlphaGeometry便是例证,它通过符号推理系统与神经网络结合,能解决奥林匹克几何问题。图灵奖得主、Meta前首席AI科学家杨立昆对语言模型路径的批评更为直接,他形容其为“给鹦鹉喂更大的芯片”。在他看来,语言模型仅学习统计规律、进行模式匹配,并未真正理解世界。要实现真正智能,AI必须建立对物理世界的模型,理解物体、空间、时间、因果关系等基本概念。届时,大语言模型将充当“翻译官”:用户用自然语言提出需求时,大语言模型负责理解并翻译成机器指令,分配给世界模型等子系统执行;任务完成后,再将结果翻译成自然语言输出给用户。
OpenAI和Anthropic则是守旧派。奥特曼认为,只要继续放大语言模型、投入更多数据和算力,智能就会“自动涌现”。他相信当模型规模达到临界点时,会突然展现质的飞跃,获得真正的理解与推理能力,这一观点被称为“规模假说”。OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维提出“压缩即理解”,称“如果你能把全世界的数据无损压缩进一个大语言模型的神经网络,那么模型内部就构建出了一个关于世界的真实模型”。Anthropic联合创始人杰拉德·卡普兰则认为语言模型本身可能不是智能,但可成为智能的基础,通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍有潜力达到AGI。MIT认知学家伊芙琳娜·费多林柯及多位MIT和伯克利学者在《Nature》期刊上发表文章指出:语言并非思维,人类思维独立于语言。婴儿在学会说话前已具备对物理世界和因果关系的认知,盲人和聋人虽缺失某些感官通道,但思维能力不受影响。语言主要是交流工具而非思维工具,因此语言模型不可能是真正的人工智能。
本文由主机测评网于2026-02-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227216.html