就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中提出了一个重要观点,即过去五年的“扩展时代”正逐渐走向尽头,预训练数据的局限性使得单纯依赖更多GPU和更大模型并不一定能带来质的飞跃。这一观点被普遍视为对Scaling Law瓶颈论的佐证。
然而,仅仅几天之后,12月1日,DeepSeek通过发布V3.2和V3.2-Speciale给出了截然不同的答案。
模型发布后,DeepSeek研究员Zhibin Gou在X上发文表示:“如果Gemini-3证明了持续扩展预训练的可能性,那么DeepSeek-V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。我们花了一年时间将DeepSeek-V3推向极限,得出的结论是:训练瓶颈需要通过优化方法和数据来解决,而非仅依赖更好的基础模型。”
他还补充道:“持续扩大模型规模、数据量、上下文和强化学习。别让那些关于‘遭遇瓶颈’的杂音阻挡你前进。”
这是DeepSeek团队少有的发声,这一幕颇有意味。当行业在讨论Scaling Law是否遭遇瓶颈时,DeepSeek用实打实的模型表明,Scaling并未死亡,只是换了战场。
尽管行业普遍认同后训练的重要性,但敢于将相当于预训练成本10%以上的算力预算用于强化学习(RL)的企业仍属少数。DeepSeek是真正将这一路线工程化、规模化的代表。
这次发布的两个模型正是这一路线的产物。V3.2定位为日常主力,对标GPT-5;Speciale则定位为极限推理,对标Gemini 3.0 Pro,并赢得了四枚国际竞赛金牌。
技术报告中的一句话值得注意:“过去几个月,尽管开源社区在持续进步,但闭源模型的性能轨迹正在以更陡峭的速度加速。差距不是在收窄,而是在扩大。”同时指出了当前开源模型存在的三个核心短板:
过度依赖普通注意力机制导致长序列效率低下、后训练算力投入不足、Agent场景下的泛化能力差。但DeepSeek的态度很明确,这些问题都有解,而V3.2就是他们给出的答案。
V3.2是9月发布的实验版V3.2-Exp的正式继任者,目标是平衡推理能力与输出成本。
在推理类Benchmark测试中,V3.2达到了GPT-5水平:AIME 2025数学竞赛93.1%(GPT-5为94.6%),HMMT 2025二月赛92.5%(GPT-5为88.3%),LiveCodeBench代码评测83.3%(GPT-5为84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同时,输出Token量大幅降低——严格的Token约束和长度惩罚让它更省、更快、更便宜。
V3.2在架构上的核心改动是引入了DeepSeek Sparse Attention(DSA)。这项技术在9月的V3.2-Exp中首次亮相,用稀疏注意力替代传统的全量注意力,将计算复杂度从O(L²)降到O(Lk)。
V3.2-Exp上线两个月后,DeepSeek通过多个维度确认了DSA的有效性:标准Benchmark与V3.1-Terminus基本持平,ChatbotArena的Elo评分接近,第三方长上下文评测反而高出4分。这意味着DeepSeek在底层架构创新上走对了路,稀疏注意力可以在不损失性能的前提下大幅提升效率。
V3.2还有一个重要突破,这是DeepSeek首个将“思考”与“工具调用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下无法调用工具,V3.2打破了这个限制,同时支持思考模式和非思考模式的工具调用。
技术报告中篇幅最大的部分是Agent能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线,覆盖1800+环境和85000+复杂指令。
这套流水线的核心设计哲学是“难解答,易验证”。以报告中的旅行规划任务为例:复杂约束组合让搜索空间巨大,但验证方案是否满足约束却很简单。这种特性天然适合强化学习,模型可以通过大量尝试获得明确的对错反馈,不需要人工标注。
效果验证很有说服力,只用合成数据做RL的模型,在Tau2Bench、MCP-Mark等Agent基准上显著提升,而只在真实环境做RL的模型,这些指标几乎没有变化。
值得注意的是,官方特别强调,V3.2并没有针对这些测试集的工具进行特殊训练,但在Agent评测中仍达到开源最高水平。这说明模型的泛化能力是真实的,不是靠刷榜优化出来的。
Speciale是V3.2的“长思考增强版”。如果说V3.2通过严格的Token约束来优化效率,Speciale则反其道而行——放宽长度限制,鼓励模型进行更深度的推理。
技术报告中的Table 3很有意思:同样的任务,Speciale的输出Token量显著高于其他模型。比如在AIME 2025上,GPT-5 High输出13k tokens,Gemini 3.0 Pro输出15k tokens,而Speciale输出高达 ">
本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545460.html