当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破

DeepSeek在迈向下一代架构的征程上,又取得了关键性进展!

根据智东西9月30日的报道,DeepSeek于近日正式开源了其DeepSeek-V3.2-Exp实验版模型。该模型首次引入DeepSeek稀疏注意力机制,在几乎不影响模型输出质量的前提下,大幅提升了长文本训练与推理的效率,被DeepSeek定义为“通往新一代架构的重要里程碑”。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第1张

HuggingFace地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社区地址:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

这一技术革新还显著降低了新模型的运营成本,DeepSeek因此推出了新的定价策略,使得开发者调用API的成本下降了超过50%。

其中输出token的降价幅度最为明显:DeepSeek-V3.2-Exp模型每100万输出token仅需3元,价格仅为DeepSeek-V3.1系列模型的四分之一。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第2张

截至9月30日上午6点,华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等AI芯片厂商也迅速完成了对该模型的适配。

DeepSeek-V3.2-Exp基于DeepSeek-V3.1-Terminus构建。在各类公开评测集上,两款模型的性能表现基本持平,但DeepSeek-V3.2-Exp完成任务所需的token数量大幅减少。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第3张

目前,DeepSeek App、网页端及小程序均已同步上线DeepSeek-V3.2-Exp模型。DeepSeek暂时保留了DeepSeek-V3.1-Terminus的API接口,以方便开发者进行对比测试。

除模型本体外,DeepSeek还开源了相关技术报告与代码,并提供TileLang与CUDA双版本GPU算子,便于研究者在不同层次进行实验与优化。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第4张

技术报告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek补充说明,作为实验性版本,DeepSeek-V3.2-Exp虽已在公开评测集上验证了有效性,但仍需在用户真实场景中进行更广泛、大规模的测试,以排除潜在的性能局限。

01.

华为、海光、寒武纪光速适配,

网友直呼第二个DeepSeek时刻要来了

DeepSeek-V3.2-Exp一经推出,便在产业界与开发者社区引发热烈反响,多家国内企业迅速宣布完成对该模型的适配与部署。

华为计算公众号发文宣布,昇腾已基于vLLM/SGLang等推理框架快速完成适配,实现DeepSeek-V3.2-Exp Day 0支持,并向开发者开源所有推理代码与算子实现。DeepSeek-V3.2-Exp在昇腾设备上处理128K长序列输出时,能保持TTFT(首token输出耗时)低于2秒、TPOT(每token输出耗时)低于30毫秒的推理速度。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第5张

华为云则率先上线了DeepSeek-V3.2-Exp,并利用CloudMatrix 384超节点为该模型提供推理服务。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第6张

在DeepSeek官宣模型开源后仅4分钟,寒武纪便发文称已同步实现Day 0适配,并开源大模型推理引擎vLLM-MLU源代码。

寒武纪通过Triton算子开发实现快速适配,利用BangC融合算子进行性能优化,并基于计算与通信的并行策略,达到了较高的计算效率。

DeepSeek-V3.2-Exp模型体积达671GB,仅下载就可能需数小时。这种分钟级的Day 0适配,暗示寒武纪与DeepSeek可能在模型发布前就已启动合作。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第7张

据经济观察网报道,海光信息的DCU(深度计算处理器)率先实现了对DeepSeek-V3.2-Exp的Day 0级高效适配与优化,确保大模型算力“零等待”部署。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第8张

在DeepSeek官方推文中,众多网友分享了使用体验。有网友称,在10万token的代码库上测试DeepSeek-V3.2-Exp,速度提升极为明显。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第9张

有网友感慨,DeepSeek API如今已近乎免费。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第10张

更有网友认为,此模型的推出,可能标志着第二个DeepSeek时刻即将来临。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第11张

Hugging Face上,DeepSeek-V3.2-Exp社区板块讨论踊跃,但热度最高的帖子是中国网友的调侃:“咱们这模型是非得赶在国庆前更新吗?”

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第12张

还有网友列出了DeepSeek历次模型更新时间,几乎都卡在节假日前后。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第13张

02.

一手体验DeepSeek-V3.2-Exp

架构创新或许比性能提升更重要

DeepSeek-V3.2-Exp在实际使用中,与之前的DeepSeek-V3.1-Terminus有何区别?

在编程任务中,DeepSeek-V3.2-Exp生成的代码明显更为简洁,相同任务下输出的代码行数较少。

但这在一定程度上影响了模型性能。例如,DeepSeek-V3.2-Exp编写的小球弹跳动画代码未能正常运行,小球飞出了六边形范围。而DeepSeek-V3.1-Terminus在先前测试中完美完成了该任务。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第14张

我们还让DeepSeek-V3.2-Exp执行了一项信息检索任务:推荐几种适合新手在阳台盆栽、生长快、果实可直接生吃、且对儿童绝对安全的植物,并附上简单播种技巧。

与DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的回复更为简略,用词也更平实。而且,DeepSeek-V3.2-Exp推荐的无花果、百香果等植物需要扦插和高频养护,不符合新手友好的要求。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第15张

DeepSeek-V3.1-Terminus(左)与DeepSeek-V3.2-Exp(右)在信息检索任务上的表现(图源:智东西)

总体来看,DeepSeek-V3.2-Exp确实提升了推理效率,但在能力上有所权衡。

知乎博主@toyama nao也在测评中指出类似问题。他认为,DeepSeek-V3.2-Exp在工作记忆、计算精度稳定性等方面存在不足,还容易出现偷懒倾向和陷入死循环。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第16张

知乎博主@toyama nao对DeepSeek-V3.2-Exp的评价

其他网友也印证了这一点,如有用户在x平台发帖称未看到明显改进,并质疑为何要使用能力降级的模型。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第17张

作为实验模型,DeepSeek-V3.2-Exp的更大贡献在于理论层面。DeepSeek表示,与DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架构上的唯一改动是通过继续训练引入了DeepSeek稀疏注意力(DSA)。

目前的DSA机制仍处原型阶段,主要由两个组件构成:一个Lightning Indexer(闪电索引器)和一个细粒度的token选择机制。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第18张

DeepSeek-V3.2-Exp架构图

Lightning Indexer能快速评估查询token与历史token的相关性,选择机制仅挑选最相关的部分上下文进行注意力计算,将复杂度从传统的二次方降至近似线性,大幅降低了训练和推理成本。

在训练上,DeepSeek-V3.2-Exp采用“继续预训练+后训练”的方式。继续预训练分两阶段:先在稠密模式下短暂训练indexer,使其输出与标准注意力一致;随后引入稀疏选择机制,让模型逐渐适应新计算方式。

预训练完成后,DeepSeek-V3.2-Exp通过专家蒸馏和混合强化学习进行后训练。专家蒸馏针对数学、编程、推理等领域训练专家模型,然后将知识压缩进通用模型。

混合强化学习将推理、智能体能力与人类对齐训练统一在一个RL阶段,避免了传统多阶段方法的遗忘问题。

技术报告显示,DeepSeek-V3.2-Exp在大多数评测任务上与前代表现相当,个别推理测试分数略有下降,但主因是生成推理token更少;若使用中间检查点,差距会缩小。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第19张

效率提升尤为显著。在H800 GPU测试环境中,长序列推理开销明显降低,证明DSA在实际部署中具有强实用性。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第20张

同时,训练曲线与前代模型保持相似的稳定性,表明该架构在收敛性上无额外风险。

DeepSeek-V3.2-Exp实验版模型发布:稀疏注意力机制引领效率突破 DeepSeek-V3.2-Exp 稀疏注意力机制 API成本降低 长文本训练推理 第21张

03.

结语:DeepSeek迈向新一代架构

正如其名中的Exp(实验版)所示,DeepSeek-V3.2-Exp的发布并非一次性能飞跃,而更像是一次架构探索,展示了一条在长文本处理中平衡性能与效率的新路径。

作为技术原型,DeepSeek-V3.2-Exp背后的DSA机制有望快速完善。随着技术持续优化及更多企业、研究者参与验证,DeepSeek或将在不久的将来带来更令人瞩目的成果。