当前位置：首页 > 科技资讯 > 正文

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场

主机测评网
科技资讯
2026-02-25
405

上周，OpenAI前首席科学家、现任SSI首席执行官Ilya Sutskever在一档最新播客节目中抛出了一个重磅观点：过去五年的“规模扩展时代”正接近尾声，预训练数据的增长是有极限的，单纯依靠增加GPU数量来堆砌更大的模型，即便规模扩大100倍，也未必能带来质的飞跃。因此，我们正重新回到以研究为核心的轨道上，只不过这一次我们拥有了前所未有的算力基础。这一言论被广泛解读为对Scaling Law遭遇瓶颈的有力支持。

然而，仅仅几天之后，12月1日，DeepSeek通过发布V3.2和V3.2-Speciale模型，给出了一个截然不同的答案。

模型发布后，DeepSeek研究员Zhibin Gou在X平台上发文表示：

“如果Gemini-3证明了持续扩展预训练的可行性，那么DeepSeek-V3.2-Speciale则验证了在大规模上下文环境中强化学习的可扩展性。我们花费了一年时间将DeepSeek-V3推向极致，从中得到的经验是：训练后的瓶颈需要通过优化方法和数据来解决，而不是仅仅等待更好的基础模型。”

他补充道：

“继续扩大模型规模、数据量、上下文长度和强化学习投入。不要让那些关于‘遭遇瓶颈’的杂音阻碍你前进的脚步。”

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第1张

这是DeepSeek团队罕见的公开表态，这一幕颇具深意：当整个行业都在热议Scaling Law是否已经撞墙时，DeepSeek用实实在在的模型发布喊话，试图证明Scaling并未消亡，只是转移到了新的战场。

尽管业界普遍认同后训练的重要性，但敢于将相当于预训练成本10%以上的算力预算投入到强化学习中的企业仍然屈指可数。DeepSeek正是将这条路线工程化、规模化的真正代表。

这次发布的两个模型正是这条技术路线的产物：V3.2定位为日常主力模型，对标GPT-5；Speciale定位为极限推理模型，对标Gemini 3.0 Pro，并在多项国际竞赛中斩获四枚金牌。

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第2张

技术报告的引言部分有一句话值得关注：“过去几个月，开源社区虽然持续进步，但闭源模型的性能提升曲线正以更陡峭的斜率加速。差距不是在缩小，而是在不断扩大。”同时，报告指出了当前开源模型面临的三大核心短板：

过度依赖普通注意力机制导致长序列处理效率低下、后训练算力投入不足、以及Agent场景下的泛化能力薄弱。但DeepSeek的态度十分明确：这些问题都有解决方案，而V3.2就是他们给出的答案。

V3.2：高效主力，将自我进化应用于通用效率

V3.2是9月发布的实验版V3.2-Exp的正式后续版本，旨在平衡推理能力与输出成本。

在推理类基准测试中，V3.2达到了与GPT-5相当的水平：AIME 2025数学竞赛得分93.1%（GPT-5为94.6%），HMMT 2025二月赛得分92.5%（GPT-5为88.3%），LiveCodeBench代码评测得分83.3%（GPT-5为84.5%）。与Kimi-K2-Thinking相比，V3.2在保持相近性能的同时，大幅降低了输出的Token数量——通过严格的Token约束和长度惩罚机制，使得模型更节省、更快速、更经济。

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第3张

V3.2在架构上的核心创新是引入了DeepSeek稀疏注意力机制（DSA）。这项技术首次亮相于9月的V3.2-Exp版本，它用稀疏注意力替代了传统的全量注意力，将计算复杂度从O(L²)降低到O(Lk)。

V3.2-Exp上线两个月后，DeepSeek从多个维度验证了DSA的有效性：在标准基准测试中与V3.1-Terminus表现基本持平，ChatbotArena的Elo评分接近，而在第三方长上下文评测中反而高出4分。这表明DeepSeek在底层架构创新上走对了方向，稀疏注意力能够在不牺牲性能的情况下显著提升效率。

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第4张

V3.2还有一个重要突破：它是DeepSeek首个将“思考”与“工具调用”融合的模型。之前的推理模型（包括OpenAI的o系列）在思考模式下无法调用工具，而V3.2打破了这一限制，同时支持思考模式和非思考模式下的工具调用。

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第5张

技术报告中篇幅最大的部分是关于Agent能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线，涵盖了1800多种环境和85000多条复杂指令。

这套流水线的核心设计理念是“难解答，易验证”。以报告中的旅行规划任务为例：复杂的约束组合导致搜索空间巨大，但验证一个方案是否满足约束却相对简单。这种特性天然适合强化学习，模型可以通过大量尝试获得明确的对错反馈，无需人工标注。

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第6张

效果验证极具说服力：仅使用合成数据进行强化学习的模型，在Tau2Bench、MCP-Mark等Agent基准上取得了显著提升，而仅在真实环境中进行强化学习的模型，这些指标几乎没有变化。

值得注意的是，官方特别强调，V3.2并未针对这些测试集的工具进行特殊训练，但在Agent评测中仍达到了开源模型的最高水平。这充分说明模型的泛化能力是真实的，并非通过刷榜优化而来。

V3.2-Speciale：极限推理，将自我验证应用于高阶逻辑

Speciale是V3.2的“长思考增强版”。如果说V3.2通过严格的Token约束来优化效率，那么Speciale则反其道而行之——放宽长度限制，鼓励模型进行更深层次的推理。

技术报告中的Table 3非常有意思：对于同样的任务，Speciale的输出Token量显著高于其他模型。例如在AIME 2025上，GPT-5 High输出13k tokens，Gemini 3.0 Pro输出15k，而Speciale输出23k；在Codeforces上差距更为悬殊，Speciale输出77k tokens，是Gemini的3.5倍。

尽管Speciale的Token输出量巨大，但得益于DeepSeek的定价策略和DSA带来的效率提升，即便将这些额外的“思考过程”计入成本，其最终使用成本依然碾压对手：比GPT-5便宜约25倍（0.4美元对比10美元），比Gemini 3.0 Pro便宜约30倍（12美元），比Claude Opus 4.5便宜约62倍（25美元）。

Speciale的意义不仅仅在于“让模型思考更久”，更重要的是验证了一个关键假设：对推理“过程”的监督，能否从数学证明领域泛化到更广泛的领域？

上周刚刚发布的DeepSeekMath-V2提出了“生成器-验证器”双模型架构：生成器负责生成证明，验证器评估证明的严谨性和完整性，验证结果作为奖励信号反馈给生成器。这套机制的核心创新在于如何保持“生成-验证差距”，当生成器变强后，验证器也需要同步提升。DeepSeek的解决方案是动态扩展验证计算，利用更多计算资源自动标注“难以验证”的证明，持续合成高难度训练数据，实现模型的可持续自我进化。

Speciale整合了Math-V2的数据集和奖励方法，不仅追求最终答案的正确性，更注重推理过程的严谨性和完整性。它将这套原本用于数学定理证明的“过程监督”机制，成功迁移到了代码生成和通用逻辑任务中。这意味着“自我验证”并非数学领域的特例，而是一种可泛化的能力提升范式。结果也相当亮眼：

DeepSeek V3.2震撼发布：Scaling Law未死，后训练开辟AI新战场 V3.2 Scaling Law 后训练强化学习第7张