当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破

主机测评网
科技资讯
2026-01-05
734

DeepSeek在迈向下一代架构的征程上，又取得了关键性进展！

根据智东西9月30日的报道，DeepSeek于近日正式开源了其DeepSeek-V3.2-Exp实验版模型。该模型首次引入DeepSeek稀疏注意力机制，在几乎不影响模型输出质量的前提下，大幅提升了长文本训练与推理的效率，被DeepSeek定义为“通往新一代架构的重要里程碑”。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第1张

HuggingFace地址：

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社区地址：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

这一技术革新还显著降低了新模型的运营成本，DeepSeek因此推出了新的定价策略，使得开发者调用API的成本下降了超过50%。

其中输出token的降价幅度最为明显：DeepSeek-V3.2-Exp模型每100万输出token仅需3元，价格仅为DeepSeek-V3.1系列模型的四分之一。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第2张

截至9月30日上午6点，华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp，华为、寒武纪、海光信息等AI芯片厂商也迅速完成了对该模型的适配。

DeepSeek-V3.2-Exp基于DeepSeek-V3.1-Terminus构建。在各类公开评测集上，两款模型的性能表现基本持平，但DeepSeek-V3.2-Exp完成任务所需的token数量大幅减少。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第3张

目前，DeepSeek App、网页端及小程序均已同步上线DeepSeek-V3.2-Exp模型。DeepSeek暂时保留了DeepSeek-V3.1-Terminus的API接口，以方便开发者进行对比测试。

除模型本体外，DeepSeek还开源了相关技术报告与代码，并提供TileLang与CUDA双版本GPU算子，便于研究者在不同层次进行实验与优化。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第4张

技术报告地址：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek补充说明，作为实验性版本，DeepSeek-V3.2-Exp虽已在公开评测集上验证了有效性，但仍需在用户真实场景中进行更广泛、大规模的测试，以排除潜在的性能局限。

01. 华为、海光、寒武纪光速适配，

网友直呼第二个DeepSeek时刻要来了

DeepSeek-V3.2-Exp一经推出，便在产业界与开发者社区引发热烈反响，多家国内企业迅速宣布完成对该模型的适配与部署。

华为计算公众号发文宣布，昇腾已基于vLLM/SGLang等推理框架快速完成适配，实现DeepSeek-V3.2-Exp Day 0支持，并向开发者开源所有推理代码与算子实现。DeepSeek-V3.2-Exp在昇腾设备上处理128K长序列输出时，能保持TTFT（首token输出耗时）低于2秒、TPOT（每token输出耗时）低于30毫秒的推理速度。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第5张

华为云则率先上线了DeepSeek-V3.2-Exp，并利用CloudMatrix 384超节点为该模型提供推理服务。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第6张

在DeepSeek官宣模型开源后仅4分钟，寒武纪便发文称已同步实现Day 0适配，并开源大模型推理引擎vLLM-MLU源代码。

寒武纪通过Triton算子开发实现快速适配，利用BangC融合算子进行性能优化，并基于计算与通信的并行策略，达到了较高的计算效率。

DeepSeek-V3.2-Exp模型体积达671GB，仅下载就可能需数小时。这种分钟级的Day 0适配，暗示寒武纪与DeepSeek可能在模型发布前就已启动合作。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第7张

据经济观察网报道，海光信息的DCU（深度计算处理器）率先实现了对DeepSeek-V3.2-Exp的Day 0级高效适配与优化，确保大模型算力“零等待”部署。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第8张

在DeepSeek官方推文中，众多网友分享了使用体验。有网友称，在10万token的代码库上测试DeepSeek-V3.2-Exp，速度提升极为明显。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第9张

有网友感慨，DeepSeek API如今已近乎免费。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第10张

更有网友认为，此模型的推出，可能标志着第二个DeepSeek时刻即将来临。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第11张

Hugging Face上，DeepSeek-V3.2-Exp社区板块讨论踊跃，但热度最高的帖子是中国网友的调侃：“咱们这模型是非得赶在国庆前更新吗？”

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第12张

还有网友列出了DeepSeek历次模型更新时间，几乎都卡在节假日前后。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第13张

02. 一手体验DeepSeek-V3.2-Exp

架构创新或许比性能提升更重要

DeepSeek-V3.2-Exp在实际使用中，与之前的DeepSeek-V3.1-Terminus有何区别？

在编程任务中，DeepSeek-V3.2-Exp生成的代码明显更为简洁，相同任务下输出的代码行数较少。

但这在一定程度上影响了模型性能。例如，DeepSeek-V3.2-Exp编写的小球弹跳动画代码未能正常运行，小球飞出了六边形范围。而DeepSeek-V3.1-Terminus在先前测试中完美完成了该任务。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第14张

我们还让DeepSeek-V3.2-Exp执行了一项信息检索任务：推荐几种适合新手在阳台盆栽、生长快、果实可直接生吃、且对儿童绝对安全的植物，并附上简单播种技巧。

与DeepSeek-V3.1-Terminus（左）相比，DeepSeek-V3.2-Exp（右）的回复更为简略，用词也更平实。而且，DeepSeek-V3.2-Exp推荐的无花果、百香果等植物需要扦插和高频养护，不符合新手友好的要求。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第15张

DeepSeek-V3.1-Terminus（左）与DeepSeek-V3.2-Exp（右）在信息检索任务上的表现（图源：智东西）

总体来看，DeepSeek-V3.2-Exp确实提升了推理效率，但在能力上有所权衡。

知乎博主@toyama nao也在测评中指出类似问题。他认为，DeepSeek-V3.2-Exp在工作记忆、计算精度稳定性等方面存在不足，还容易出现偷懒倾向和陷入死循环。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第16张

知乎博主@toyama nao对DeepSeek-V3.2-Exp的评价

其他网友也印证了这一点，如有用户在x平台发帖称未看到明显改进，并质疑为何要使用能力降级的模型。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第17张

作为实验模型，DeepSeek-V3.2-Exp的更大贡献在于理论层面。DeepSeek表示，与DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2-Exp在架构上的唯一改动是通过继续训练引入了DeepSeek稀疏注意力（DSA）。

目前的DSA机制仍处原型阶段，主要由两个组件构成：一个Lightning Indexer（闪电索引器）和一个细粒度的token选择机制。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第18张

DeepSeek-V3.2-Exp架构图

Lightning Indexer能快速评估查询token与历史token的相关性，选择机制仅挑选最相关的部分上下文进行注意力计算，将复杂度从传统的二次方降至近似线性，大幅降低了训练和推理成本。

在训练上，DeepSeek-V3.2-Exp采用“继续预训练+后训练”的方式。继续预训练分两阶段：先在稠密模式下短暂训练indexer，使其输出与标准注意力一致；随后引入稀疏选择机制，让模型逐渐适应新计算方式。

预训练完成后，DeepSeek-V3.2-Exp通过专家蒸馏和混合强化学习进行后训练。专家蒸馏针对数学、编程、推理等领域训练专家模型，然后将知识压缩进通用模型。

混合强化学习将推理、智能体能力与人类对齐训练统一在一个RL阶段，避免了传统多阶段方法的遗忘问题。

技术报告显示，DeepSeek-V3.2-Exp在大多数评测任务上与前代表现相当，个别推理测试分数略有下降，但主因是生成推理token更少；若使用中间检查点，差距会缩小。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第19张

效率提升尤为显著。在H800 GPU测试环境中，长序列推理开销明显降低，证明DSA在实际部署中具有强实用性。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第20张

同时，训练曲线与前代模型保持相似的稳定性，表明该架构在收敛性上无额外风险。

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低长文本训练推理第21张

03. 结语：DeepSeek迈向新一代架构

正如其名中的Exp（实验版）所示，DeepSeek-V3.2-Exp的发布并非一次性能飞跃，而更像是一次架构探索，展示了一条在长文本处理中平衡性能与效率的新路径。

作为技术原型，DeepSeek-V3.2-Exp背后的DSA机制有望快速完善。随着技术持续优化及更多企业、研究者参与验证，DeepSeek或将在不久的将来带来更令人瞩目的成果。

阿里云服务器免费服务器

本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260115063.html

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破

01.

华为、海光、寒武纪光速适配，

网友直呼第二个DeepSeek时刻要来了

02.

一手体验DeepSeek-V3.2-Exp

架构创新或许比性能提升更重要

03.

结语：DeepSeek迈向新一代架构

Linux基础IO入门指南（从零开始掌握文件操作）

Linux高级IO模型全面解析

DeepSeek-V3.2-Exp实验版模型发布：稀疏注意力机制引领效率突破

01.

华为、海光、寒武纪光速适配，

网友直呼第二个DeepSeek时刻要来了

02.

一手体验DeepSeek-V3.2-Exp

架构创新或许比性能提升更重要

03.

结语：DeepSeek迈向新一代架构

Linux基础IO入门指南（从零开始掌握文件操作）

Linux高级IO模型全面解析

相关文章