当前位置:首页 > 科技资讯 > 正文

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了

关于Scaling Law撞墙的说法,在AI圈已经流传了一年多。从Gary Marcus对收益递减的批评,到坊间传闻OpenAI下一代模型“Orion”进展受阻,再到GPT-5发布时许多人觉得“不够惊艳”——进步确实存在,但那种让人眼前一亮的跃升似乎消失了。甚至连Ilya Sutskever都表示,我们正从扩展时代回归到研究时代。曾经“大力出奇迹”的配方,似乎真的走到了尽头。

然而,Gemini 3的发布彻底扭转了这一局面。Gemini 3不仅变得更强大,更是在所有维度上——能力、推理、速度、成本、生态——首次全面追平并超越了OpenAI的产品。从它身上,你看不到任何“墙”的存在。

关键之处在于,Gemini 3并非依赖一套全新的架构实现突破。Google表示,其进展源于预训练和后训练两个阶段的方法升级。具体的技术细节外界只能推测,可能是Google积累25年的独家数据终于发挥价值,也可能是找到了处理数据的新技术。但无论原因如何,Google愿意公开承认“预训练仍有改进空间”,这本身就是一个强烈信号:Scaling的两条主线——预训练和后训练——都尚未触及天花板。

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了 Law  Gemini 3 预训练 测试时计算 第1张

大模型训练已然演变为“重资产游戏”

Gemini联合负责人Oriol Vinyals说得更加直接:从2.5到3.0的性能跃迁是他们见过最大的一次,“完全看不到任何墙”。

与此同时,马斯克的xAI宣布其超算集群Colossus已扩展至20万块GPU,目标是100万块。OpenAI、Anthropic、微软也在投入数千亿美元扩建数据中心。如果Scaling Law真的失效,这些巨头又在赌什么?

墙并不存在

先来看最直接的证据。Gemini 3证明了算法改进结合更强算力时,预训练Scaling依然有效。前DeepMind研究科学家Oriol Vinyals将Gemini 3的提升归因于预训练和后训练的双重优化,并非引入全新方法论,而是将现有方法做得更极致——换句话说,不是Scaling不行了,而是之前的方法还不够好。

黄仁勋提出了一个更系统的框架:当前有三条Scaling曲线同时在起作用——预训练Scaling、后训练Scaling、以及推理时Scaling(test-time compute)。传统的预训练Scaling是用更多数据和算力训练更大模型;后训练Scaling通过RLHF、DPO等技术在训练后持续优化;推理时Scaling则让模型在回答问题时花更多时间“思考”,例如OpenAI的o1系列。

Sam Altman在2025年初的博客中写得更直白:模型的智能水平大致等于用于训练和运行它的资源的对数。这听起来像是坏消息,但反过来理解,只要愿意持续投入,模型就会持续变好。曲线并未弯曲,只是斜率需要用对数坐标来理解。

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了 Law  Gemini 3 预训练 测试时计算 第2张

Google DeepMind的CEO Demis Hassabis态度同样明确。他在一次公开活动中表示,现有系统的扩展必须推到极限,因为它至少会是最终AGI系统的关键组成部分,甚至可能就是全部。

如果Scaling Law真的撞墙,很难解释为何整个行业还在以前所未有的速度砸钱。这些巨头在赌什么?即便退一步说,算力可以用于推理而非训练,这种规模的投资也需要模型能力的持续提升来支撑——否则推理什么?一个能力停滞的模型,值得为它建造价值万亿美元的基础设施吗?

争论的核心并非同一件事

不过,仔细聆听各方的表态,会发现一个有趣现象:大家嘴里说的Scaling Law,可能根本不是同一个概念。传统意义上的Scaling Law很简单:更多数据、更大模型、更多算力,等于更强性能。这是2020年OpenAI那篇著名论文确立的范式,也是过去几年大模型竞赛的底层逻辑。如果说的是这条曲线,那确实在放缓——数据快被用完了,单纯堆参数的边际收益在下降,这是事实。

但现在行业里讨论的Scaling,早已不止这一个维度。黄仁勋提出的三阶段框架便是一例:预训练是第一阶段,相当于让模型上大学,获取广泛的基础知识;后训练是第二阶段,相当于读研,针对特定领域深造;测试时计算是第三阶段,相当于让模型在回答问题之前先想一想,而不是脱口而出。o1、DeepSeek-R1这些推理模型的出现,本质上就是在第三阶段做文章。

还有一个更有趣的视角,来自IBM的播客《Mixture of Experts》。几位嘉宾讨论Gemini 3时提出一个观点:我们是否应该将其称为“Scaling实验定律”,而非“Scaling定律”?他们的意思是,算力增加的真正作用,不是直接转化成智能,而是让研究人员能够更快地跑实验、试错、迭代。更多的算力等于更快的实验速度,等于更好的算法,最终等于更强的模型。这才是Scaling的真正含义。所以即便继续Scale的收益下降,头部公司也面临不能不跟的博弈压力。

从这个角度看,Ilya Sutskever说的“回归研究时代”和其他人说的“Scaling Law没死”并不矛盾。Ilya的意思是,那个简单粗暴的配方用完了,不能再指望光靠堆资源就能出奇迹。但他从未说算力不重要,他说的是“我们带着大型计算机回到了研究时代”。算力是前提,但不再是唯一的变量。当然,Ilya的表态也不能完全当作纯粹的技术判断——他现在做的Safe Superintelligence走的是少商业化、重基础研究的路线,说扩展时代结束、研究时代回归,某种程度上也是在为自己的新公司寻找差异化的叙事。

所以,与其问Scaling死没死,不如问:哪条曲线在放缓,哪条曲线在加速?

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了 Law  Gemini 3 预训练 测试时计算 第3张

各方的立场与利益

说到立场和利益,这场争论里每个人的位置其实都很清楚。英伟达是最明显的:无论Scaling Law怎么演变,无论你是堆预训练、堆后训练还是堆推理,都需要GPU。三条曲线变成一条还是十条,对它来说没区别——只要大家还在Scaling,它就是卖铲子的那个人。所以它当然要说没死,还要说有三条曲线。

OpenAI、Google、Anthropic这些模型公司也是一样。他们正在建造或规划中的数据中心投资规模是百亿甚至千亿美元级别的。这些钱已经花出去了,或者已经承诺出去。此时说Scaling Law失效,相当于说自己在做一笔糟糕的投资。从公司利益的角度,他们必须相信,也必须让投资人相信,Scaling仍然有效。

马斯克的xAI也遵循这一逻辑。他曾多次警告,目前AI最大的中长期瓶颈会从芯片转向电力生产和电网,数据中心和AI集群将在未来几年消耗极其可观的全球电力,对电网形成硬约束。结合他疯狂堆GPU、建算力超级工厂的行为,很难说他主观上相信再堆算力也没什么提升。

看似站在另一边的是Ilya和他的SSI。但仔细想想,他的位置其实也合理。SSI融资规模和OpenAI、Google不在一个量级,拼算力拼不过。此时说Scaling时代结束、研究突破更重要,既是技术判断,也是竞争策略。他需要让投资人相信,有另一条路可以通向超级智能,而那条路或许不需要万亿美元的基础设施。

另一种是“世界模型派”,Yann LeCun和李飞飞都认为,靠现在这套LLM路线,怎么scale都很难做出真正AGI。Yann LeCun创办了专注世界模型的公司AMI,他认为LLM很有用,但只是“高级自动补全”,真正通用的智能需要世界模型+自监督学习+规划+持久记忆+具身交互的新架构。李飞飞创立的World Labs则将赌注押在世界模型和空间智能上,主攻能重建和生成3D世界的基础模型,而非再做一套更大的聊天LLM。这都代表了一条有别于“单纯把语言模型做大”的scaling路线——世界模型意味着学到环境的动态和结构,而不是只学token。

所以这场争论,与其说是技术分歧,不如说是各方在自己的位置上讲述对自己有利的不同版本的故事。

DeepSeek的一句话

在这场争论中,中国AI公司是一个特殊的存在,而DeepSeek可能是最有代表性的案例。过去一年,DeepSeek靠着极高的算力利用效率,用远低于硅谷同行的成本做出了能打的模型。这曾一度被解读为Scaling Law的反例——你看,不用砸那么多钱也能做出好东西。

但这可能是一个误读。DeepSeek真正证明的是,架构优化和工程能力可以让你在同样的算力预算下获得更好的结果。用他们自己的话说,是把Scaling曲线往更省算力的方向平移了。但曲线本身还在那里,你想往上走,还是要投入更多资源。这一点在DeepSeek-V3.2的技术报告中说得非常清楚。他们在结论部分直接承认,模型在世界知识广度上的不足,根本原因是总训练算力比前沿闭源模型少。要补这个短板,只有一个办法:扩大预训练算力。

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了 Law  Gemini 3 预训练 测试时计算 第4张

翻译成白话:我们要买更多卡了。这可能会在下一代模型上应验。对中国AI公司来说,这是一个现实的处境:算法优化、工程效率是现阶段的护城河,但不是永久的。长期来看,如果Scaling Law继续有效,算力就是绕不过去的坎。而在芯片受限的情况下,这意味着要么找到其他的路,要么在有限的资源里把效率做到极致。

Scaling Law未死:Gemini 3证明扩展依然有效,只是玩法变了 Law  Gemini 3 预训练 测试时计算 第5张

苦涩的教训:只要我GPU足够多、算力足够大,我就能碾压你们

Scaling Law死了,Scaling Law万岁

回到最初的问题:Scaling Law到底死没死?从目前的证据来看,答案是否定的。Gemini 3的表现、各家公司的持续投入、技术演进的方向,都指向同一个结论——Scaling仍然有效,只是方式变了。过去那种简单粗暴的“更大、更多、更强”配方确实在遇到瓶颈,但Scaling的内涵正在变化:预训练、后训练、测试时计算,三个阶段都有各自的增长曲线。算力的价值也从直接转化成智能,转变为加速实验和迭代的基础设施。

对头部厂商而言,Scaling不仅是技术问题,更是资产负债表问题。已经宣布和在建的数据中心项目,未来会持续压在头上,要求模型能力不断提高来消化这些投入。所以这不意味着一切都很乐观——模型在变强,但变强的速度是否足以支撑当前的估值和投资规模,这是另一个问题。

华尔街有句话:“趋势是你的朋友,直到它不是。”Scaling Law也一样,它会一直有效,直到它不再有效。但那一天,显然还没到来。