DeepSeek三周年大更新：发布两款新模型，引领AI新纪元

主机测评网
科技资讯
2026-05-19
976

震撼来袭！

ChatGPT发布三周年之际，DeepSeek强势推出两款新模型：

DeepSeek-V3.2
DeepSeek-V3.2-Speciale

前者注重平衡与实用，覆盖日常问答、通用Agent任务及实际应用场景的工具调用。

其推理能力已逼近GPT-5，稍逊于Gemini-3.0-Pro。

后者主打极致推理，性能直追Gemini-3.0-Pro，并在多项国际竞赛中摘金夺魁。

尤为值得一提的是，在ICPC和IOI竞赛中，分别位列人类选手第二和第十。

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务第1张

具体而言，DeepSeek-V3.2在保持推理能力的同时，优化了输出长度，降低了计算成本。

DeepSeek官方表示：“DeepSeek-V3.2模型在Agent评测中已居开源模型之冠”。

该模型还具备以下特点：

推理能力与GPT-5比肩；
相比Kimi-K2-Thinking大幅缩短输出时长，减少用户等待；
首个支持“思考融入工具调用”的模型，支持双模式工具调用；
基于大规模数据集进行训练，泛化能力强。

下图展示了DeepSeek-V3.2与其他模型在各类Agent工具调用评测集上的得分。

——需强调，DeepSeek-V3.2未针对这些测试集进行特殊训练。

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务第2张

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的增强版，融合了DeepSeek-Math-V2的定理证明能力。

在指令执行、数学证明、逻辑验证方面表现出色，适用于高度复杂的数学推理、编程竞赛及学术研究。

特别说明！此版本目前未针对日常对话与写作进行优化。

且仅供研究使用，不支持工具调用。

虽然Speciale模型在高度复杂任务上表现优异，但消耗的Tokens也更多，成本更高。

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务第3张

目前，DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2；Speciale版本则通过临时API提供。

模型发布的同时，技术报告也已公开。

报告中透露的技术细节颇为硬核：

引入DSA高效稀疏注意力机制，长文本不再是难题

DeepSeek-V3.2最大的创新是引入DSA（DeepSeek Sparse Attention）机制。

传统注意力机制在处理长序列时计算复杂度为O(L²)，限制了模型的部署效率和可扩展性。

DSA将计算复杂度降至O(L·k)，其中k远小于L。

这不仅显著加速了长上下文任务的推理，且性能未受影响。

支持FP8精度和MLA架构，训练更友好。

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务第4张

DSA包含两个核心组件：

Lightning Indexer（闪电索引器）
Fine-grained Token Selection（细粒度Token选择）

闪电索引器负责快速计算查询Token与历史Token之间的相关性分数，仅选择top-k个最相关Token进行注意力计算。

团队采用ReLU激活函数提升吞吐量。

在继续训练DeepSeek-V3.1-Terminus时，团队采用两阶段策略：

第一阶段是Dense Warm-up
第二阶段引入稀疏机制

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务第5张

“后训练”算力提升超预训练10%

“后训练”阶段计算资源投入不足

...（省略了部分具体训练策略的描述）...

...（省略了部分Agent任务突破的描述）...

...（省略了部分技术报告最后局限性的描述）...

免费服务器免费vps 性价比服务器

本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545418.html

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元

引入DSA高效稀疏注意力机制，长文本不再是难题

“后训练”算力提升超预训练10%

...（省略了部分具体训练策略的描述）...

...（省略了部分Agent任务突破的描述）...

...（省略了部分技术报告最后局限性的描述）...

DeepSeek V3.2：开源模型崛起，挑战顶尖AI

清华团队破解AI遗忘难题：任务关系引导持续学习

DeepSeek三周年大更新：发布两款新模型，引领AI新纪元

引入DSA高效稀疏注意力机制，长文本不再是难题

“后训练”算力提升超预训练10%

...（省略了部分具体训练策略的描述）...

...（省略了部分Agent任务突破的描述）...

...（省略了部分技术报告最后局限性的描述）...

DeepSeek V3.2：开源模型崛起，挑战顶尖AI

清华团队破解AI遗忘难题：任务关系引导持续学习

相关文章