当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场

上周,OpenAI前首席科学家、现任SSI首席执行官Ilya Sutskever在一档最新播客节目中抛出了一个重磅观点:过去五年的“规模扩展时代”正接近尾声,预训练数据的增长是有极限的,单纯依靠增加GPU数量来堆砌更大的模型,即便规模扩大100倍,也未必能带来质的飞跃。因此,我们正重新回到以研究为核心的轨道上,只不过这一次我们拥有了前所未有的算力基础。这一言论被广泛解读为对Scaling Law遭遇瓶颈的有力支持。

然而,仅仅几天之后,12月1日,DeepSeek通过发布V3.2和V3.2-Speciale模型,给出了一个截然不同的答案。

模型发布后,DeepSeek研究员Zhibin Gou在X平台上发文表示:

“如果Gemini-3证明了持续扩展预训练的可行性,那么DeepSeek-V3.2-Speciale则验证了在大规模上下文环境中强化学习的可扩展性。我们花费了一年时间将DeepSeek-V3推向极致,从中得到的经验是:训练后的瓶颈需要通过优化方法和数据来解决,而不是仅仅等待更好的基础模型。”

他补充道:

“继续扩大模型规模、数据量、上下文长度和强化学习投入。不要让那些关于‘遭遇瓶颈’的杂音阻碍你前进的脚步。”

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第1张

这是DeepSeek团队罕见的公开表态,这一幕颇具深意:当整个行业都在热议Scaling Law是否已经撞墙时,DeepSeek用实实在在的模型发布喊话,试图证明Scaling并未消亡,只是转移到了新的战场。

尽管业界普遍认同后训练的重要性,但敢于将相当于预训练成本10%以上的算力预算投入到强化学习中的企业仍然屈指可数。DeepSeek正是将这条路线工程化、规模化的真正代表。

这次发布的两个模型正是这条技术路线的产物:V3.2定位为日常主力模型,对标GPT-5;Speciale定位为极限推理模型,对标Gemini 3.0 Pro,并在多项国际竞赛中斩获四枚金牌。

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第2张

技术报告的引言部分有一句话值得关注:“过去几个月,开源社区虽然持续进步,但闭源模型的性能提升曲线正以更陡峭的斜率加速。差距不是在缩小,而是在不断扩大。”同时,报告指出了当前开源模型面临的三大核心短板:

过度依赖普通注意力机制导致长序列处理效率低下、后训练算力投入不足、以及Agent场景下的泛化能力薄弱。但DeepSeek的态度十分明确:这些问题都有解决方案,而V3.2就是他们给出的答案。

V3.2:高效主力,将自我进化应用于通用效率

V3.2是9月发布的实验版V3.2-Exp的正式后续版本,旨在平衡推理能力与输出成本。

在推理类基准测试中,V3.2达到了与GPT-5相当的水平:AIME 2025数学竞赛得分93.1%(GPT-5为94.6%),HMMT 2025二月赛得分92.5%(GPT-5为88.3%),LiveCodeBench代码评测得分83.3%(GPT-5为84.5%)。与Kimi-K2-Thinking相比,V3.2在保持相近性能的同时,大幅降低了输出的Token数量——通过严格的Token约束和长度惩罚机制,使得模型更节省、更快速、更经济。

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第3张

V3.2在架构上的核心创新是引入了DeepSeek稀疏注意力机制(DSA)。这项技术首次亮相于9月的V3.2-Exp版本,它用稀疏注意力替代了传统的全量注意力,将计算复杂度从O(L²)降低到O(Lk)。

V3.2-Exp上线两个月后,DeepSeek从多个维度验证了DSA的有效性:在标准基准测试中与V3.1-Terminus表现基本持平,ChatbotArena的Elo评分接近,而在第三方长上下文评测中反而高出4分。这表明DeepSeek在底层架构创新上走对了方向,稀疏注意力能够在不牺牲性能的情况下显著提升效率。

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第4张

V3.2还有一个重要突破:它是DeepSeek首个将“思考”与“工具调用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下无法调用工具,而V3.2打破了这一限制,同时支持思考模式和非思考模式下的工具调用。

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第5张

技术报告中篇幅最大的部分是关于Agent能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线,涵盖了1800多种环境和85000多条复杂指令。

这套流水线的核心设计理念是“难解答,易验证”。以报告中的旅行规划任务为例:复杂的约束组合导致搜索空间巨大,但验证一个方案是否满足约束却相对简单。这种特性天然适合强化学习,模型可以通过大量尝试获得明确的对错反馈,无需人工标注。

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第6张

效果验证极具说服力:仅使用合成数据进行强化学习的模型,在Tau2Bench、MCP-Mark等Agent基准上取得了显著提升,而仅在真实环境中进行强化学习的模型,这些指标几乎没有变化。

值得注意的是,官方特别强调,V3.2并未针对这些测试集的工具进行特殊训练,但在Agent评测中仍达到了开源模型的最高水平。这充分说明模型的泛化能力是真实的,并非通过刷榜优化而来。

V3.2-Speciale:极限推理,将自我验证应用于高阶逻辑

Speciale是V3.2的“长思考增强版”。如果说V3.2通过严格的Token约束来优化效率,那么Speciale则反其道而行之——放宽长度限制,鼓励模型进行更深层次的推理。

技术报告中的Table 3非常有意思:对于同样的任务,Speciale的输出Token量显著高于其他模型。例如在AIME 2025上,GPT-5 High输出13k tokens,Gemini 3.0 Pro输出15k,而Speciale输出23k;在Codeforces上差距更为悬殊,Speciale输出77k tokens,是Gemini的3.5倍。

尽管Speciale的Token输出量巨大,但得益于DeepSeek的定价策略和DSA带来的效率提升,即便将这些额外的“思考过程”计入成本,其最终使用成本依然碾压对手:比GPT-5便宜约25倍(0.4美元对比10美元),比Gemini 3.0 Pro便宜约30倍(12美元),比Claude Opus 4.5便宜约62倍(25美元)。

Speciale的意义不仅仅在于“让模型思考更久”,更重要的是验证了一个关键假设:对推理“过程”的监督,能否从数学证明领域泛化到更广泛的领域?

上周刚刚发布的DeepSeekMath-V2提出了“生成器-验证器”双模型架构:生成器负责生成证明,验证器评估证明的严谨性和完整性,验证结果作为奖励信号反馈给生成器。这套机制的核心创新在于如何保持“生成-验证差距”,当生成器变强后,验证器也需要同步提升。DeepSeek的解决方案是动态扩展验证计算,利用更多计算资源自动标注“难以验证”的证明,持续合成高难度训练数据,实现模型的可持续自我进化。

Speciale整合了Math-V2的数据集和奖励方法,不仅追求最终答案的正确性,更注重推理过程的严谨性和完整性。它将这套原本用于数学定理证明的“过程监督”机制,成功迁移到了代码生成和通用逻辑任务中。这意味着“自我验证”并非数学领域的特例,而是一种可泛化的能力提升范式。结果也相当亮眼:

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第7张

算力充裕的DeepSeek将带来什么?

有网友评论说,每篇DeepSeek论文最重要的部分永远是“结论、局限性与未来工作”部分。这次的技术报告也不例外,报告中提到:“首先,由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型。我们计划在后续版本中,通过扩大预训练算力来弥补这一知识差距。”

DeepSeek V3.2震撼发布:Scaling Law未死,后训练开辟AI新战场 V3.2 Scaling Law 后训练 强化学习 第8张

报告中承认,由于总训练FLOPs较少,V3.2的世界知识广度仍落后于Gemini 3.0 Pro。但DeepSeek的选择并非等待一个更大的基础模型,而是先将方法论打磨到极致,用一年时间,通过合成数据、自我验证和大规模强化学习,真正跑出了后训练的上限。

从这次的发布也能看出这条技术路线的成果:

V3.2将“自我进化式工程”(高强化学习预算、合成数据闭环)应用于通用效率的提升;

Speciale则将过程奖励与自我验证机制推向了高阶逻辑推理。

两者共同指向同一个方向:未来的模型不再依赖人力堆砌,而是依靠自我博弈实现持续演进。

下一步就是扩大预训练算力来弥补知识差距。这也引发了人们的联想:一是如果DeepSeek真的补齐了算力,会发生什么?二是,这些新增的算力资源将从何而来?

回顾过去一年的技术路径,Janus的多模态统一架构、OCR的视觉压缩记忆、NSA的长上下文效率、Math-V2的自我验证……这些创新都是在V3这个基座上迭代出来的。

那么,一个参数更大、训练FLOPs更多的V4,再叠加这些已经验证有效的方法论,将会产生怎样的化学反应?

一个合理甚至是大胆的预期是,当V4或R2到来时,我们看到的可能已经不是传统意义上的“更强语言模型”,而是一个能够感知多模态环境、具备更长期记忆、并能在真实交互中持续进化的系统。如今发生在合成环境中的自我博弈,未来可能会延伸到真实环境的在线学习。

而在算力方面,在英伟达频繁形容其中国市场份额已经归零的背景下,继续扩展所需的算力资源看起来不太可能依靠H800等芯片提供。下一代模型将会用什么样的更大规模算力资源进行训练?如果这些算力缺口能够被补齐,完全形态的DeepSeek下一代模型会是什么样子?这些问题显然更为重要,也更引人遐想。