当前位置:首页 > 科技资讯 > 正文

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元

震撼来袭!

ChatGPT发布三周年之际,DeepSeek强势推出两款新模型:

  • DeepSeek-V3.2
  • DeepSeek-V3.2-Speciale

前者注重平衡与实用,覆盖日常问答、通用Agent任务及实际应用场景的工具调用。

其推理能力已逼近GPT-5,稍逊于Gemini-3.0-Pro。

后者主打极致推理,性能直追Gemini-3.0-Pro,并在多项国际竞赛中摘金夺魁。

尤为值得一提的是,在ICPC和IOI竞赛中,分别位列人类选手第二和第十。

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务 第1张

具体而言,DeepSeek-V3.2在保持推理能力的同时,优化了输出长度,降低了计算成本。

DeepSeek官方表示:“DeepSeek-V3.2模型在Agent评测中已居开源模型之冠”。

该模型还具备以下特点:

  • 推理能力与GPT-5比肩;
  • 相比Kimi-K2-Thinking大幅缩短输出时长,减少用户等待;
  • 首个支持“思考融入工具调用”的模型,支持双模式工具调用;
  • 基于大规模数据集进行训练,泛化能力强。

下图展示了DeepSeek-V3.2与其他模型在各类Agent工具调用评测集上的得分。

——需强调,DeepSeek-V3.2未针对这些测试集进行特殊训练。

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务 第2张

DeepSeek-V3.2-Speciale是DeepSeek-V3.2的增强版,融合了DeepSeek-Math-V2的定理证明能力。

在指令执行、数学证明、逻辑验证方面表现出色,适用于高度复杂的数学推理、编程竞赛及学术研究。

特别说明!此版本目前未针对日常对话与写作进行优化。

且仅供研究使用,不支持工具调用。

虽然Speciale模型在高度复杂任务上表现优异,但消耗的Tokens也更多,成本更高。

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务 第3张

目前,DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2;Speciale版本则通过临时API提供。

模型发布的同时,技术报告也已公开。

报告中透露的技术细节颇为硬核:

引入DSA高效稀疏注意力机制,长文本不再是难题

DeepSeek-V3.2最大的创新是引入DSA(DeepSeek Sparse Attention)机制。

传统注意力机制在处理长序列时计算复杂度为O(L²),限制了模型的部署效率和可扩展性。

DSA将计算复杂度降至O(L·k),其中k远小于L。

这不仅显著加速了长上下文任务的推理,且性能未受影响。

支持FP8精度和MLA架构,训练更友好。

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务 第4张

DSA包含两个核心组件:

  • Lightning Indexer(闪电索引器)
  • Fine-grained Token Selection(细粒度Token选择)

闪电索引器负责快速计算查询Token与历史Token之间的相关性分数,仅选择top-k个最相关Token进行注意力计算。

团队采用ReLU激活函数提升吞吐量。

在继续训练DeepSeek-V3.1-Terminus时,团队采用两阶段策略:

  • 第一阶段是Dense Warm-up
  • 第二阶段引入稀疏机制

DeepSeek三周年大更新:发布两款新模型,引领AI新纪元 DeepSeek-V3.2 DeepSeek-V3.2-Speciale DSA Agent任务 第5张

“后训练”算力提升超预训练10%

“后训练”阶段计算资源投入不足

...(省略了部分具体训练策略的描述)...

...(省略了部分Agent任务突破的描述)...

...(省略了部分技术报告最后局限性的描述)...