当前位置：首页 > 科技资讯 > 正文

DeepSeek模型发布：自我进化与自我验证的AI新纪元

主机测评网
科技资讯
2026-05-19
533

就在上周，OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中提出了一个重要观点，即过去五年的“扩展时代”正逐渐走向尽头，预训练数据的局限性使得单纯依赖更多GPU和更大模型并不一定能带来质的飞跃。这一观点被普遍视为对Scaling Law瓶颈论的佐证。

然而，仅仅几天之后，12月1日，DeepSeek通过发布V3.2和V3.2-Speciale给出了截然不同的答案。

模型发布后，DeepSeek研究员Zhibin Gou在X上发文表示：“如果Gemini-3证明了持续扩展预训练的可能性，那么DeepSeek-V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。我们花了一年时间将DeepSeek-V3推向极限，得出的结论是：训练瓶颈需要通过优化方法和数据来解决，而非仅依赖更好的基础模型。”

他还补充道：“持续扩大模型规模、数据量、上下文和强化学习。别让那些关于‘遭遇瓶颈’的杂音阻挡你前进。”

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第1张

这是DeepSeek团队少有的发声，这一幕颇有意味。当行业在讨论Scaling Law是否遭遇瓶颈时，DeepSeek用实打实的模型表明，Scaling并未死亡，只是换了战场。

尽管行业普遍认同后训练的重要性，但敢于将相当于预训练成本10%以上的算力预算用于强化学习（RL）的企业仍属少数。DeepSeek是真正将这一路线工程化、规模化的代表。

这次发布的两个模型正是这一路线的产物。V3.2定位为日常主力，对标GPT-5；Speciale则定位为极限推理，对标Gemini 3.0 Pro，并赢得了四枚国际竞赛金牌。

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第2张

技术报告中的一句话值得注意：“过去几个月，尽管开源社区在持续进步，但闭源模型的性能轨迹正在以更陡峭的速度加速。差距不是在收窄，而是在扩大。”同时指出了当前开源模型存在的三个核心短板：

过度依赖普通注意力机制导致长序列效率低下、后训练算力投入不足、Agent场景下的泛化能力差。但DeepSeek的态度很明确，这些问题都有解，而V3.2就是他们给出的答案。

V3.2：高效主力，将自我进化应用于通用效率

V3.2是9月发布的实验版V3.2-Exp的正式继任者，目标是平衡推理能力与输出成本。

在推理类Benchmark测试中，V3.2达到了GPT-5水平：AIME 2025数学竞赛93.1%（GPT-5为94.6%），HMMT 2025二月赛92.5%（GPT-5为88.3%），LiveCodeBench代码评测83.3%（GPT-5为84.5%）。相比Kimi-K2-Thinking，V3.2在保持相近性能的同时，输出Token量大幅降低——严格的Token约束和长度惩罚让它更省、更快、更便宜。

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第3张

V3.2在架构上的核心改动是引入了DeepSeek Sparse Attention（DSA）。这项技术在9月的V3.2-Exp中首次亮相，用稀疏注意力替代传统的全量注意力，将计算复杂度从O(L²)降到O(Lk)。

V3.2-Exp上线两个月后，DeepSeek通过多个维度确认了DSA的有效性：标准Benchmark与V3.1-Terminus基本持平，ChatbotArena的Elo评分接近，第三方长上下文评测反而高出4分。这意味着DeepSeek在底层架构创新上走对了路，稀疏注意力可以在不损失性能的前提下大幅提升效率。

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第4张

V3.2还有一个重要突破，这是DeepSeek首个将“思考”与“工具调用”融合的模型。之前的推理模型（包括OpenAI的o系列）在思考模式下无法调用工具，V3.2打破了这个限制，同时支持思考模式和非思考模式的工具调用。

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第5张

技术报告中篇幅最大的部分是Agent能力的训练方法。DeepSeek构建了一套大规模的Agent任务合成流水线，覆盖1800+环境和85000+复杂指令。

这套流水线的核心设计哲学是“难解答，易验证”。以报告中的旅行规划任务为例：复杂约束组合让搜索空间巨大，但验证方案是否满足约束却很简单。这种特性天然适合强化学习，模型可以通过大量尝试获得明确的对错反馈，不需要人工标注。

DeepSeek模型发布：自我进化与自我验证的AI新纪元 DeepSeek V3.2 Speciale 自我进化第6张

效果验证很有说服力，只用合成数据做RL的模型，在Tau2Bench、MCP-Mark等Agent基准上显著提升，而只在真实环境做RL的模型，这些指标几乎没有变化。

值得注意的是，官方特别强调，V3.2并没有针对这些测试集的工具进行特殊训练，但在Agent评测中仍达到开源最高水平。这说明模型的泛化能力是真实的，不是靠刷榜优化出来的。

V3.2-Speciale：极限推理，将自我验证用在高阶逻辑上

Speciale是V3.2的“长思考增强版”。如果说V3.2通过严格的Token约束来优化效率，Speciale则反其道而行——放宽长度限制，鼓励模型进行更深度的推理。

技术报告中的Table 3很有意思：同样的任务，Speciale的输出Token量显著高于其他模型。比如在AIME 2025上，GPT-5 High输出13k tokens，Gemini 3.0 Pro输出15k tokens，而Speciale输出高达 ">

性价比服务器免费vps

本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545460.html

上一篇
马斯克：AI与机器人，三年解决美国预算危机

下一篇
元数学新突破：颠覆传统理论计算机科学

相关文章

AI架构瓶颈：探索下一代智能的突破

TwiG：边生成边思考，重塑视觉生成新范式

ChatGPT冲击波：Google AI救星Josh Woodward崛起

2025智能眼镜：AI新战场，巨头争相布局

2025外设市场：旧王退位，新王争霸，AI驱动变革

重卡市场火爆：新能源重卡成新宠，销量激增背后原因揭秘

小屏旗舰：未来趋势与挑战并存

2025车市重塑：吉利逆袭比亚迪，新能源竞争加剧