当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp模型正式发布:稀疏注意力机制引领长文本效率革新与API成本大幅下调

在9月29日,DeepSeek团队隆重推出了其最新的实验性模型DeepSeek-V3.2-Exp,该版本已同步在Huggingface和魔搭平台实现开源。目前,官方移动应用App、网页端以及小程序均已全面升级至DeepSeek-V3.2-Exp版本,同时宣布API服务价格进行大幅度调整,为开发者带来更多实惠。

根据官方详细介绍,DeepSeek-V3.2-Exp 模型作为一个实验性(Experimental)版本,代表了向新一代架构迈进的关键过渡阶段。该模型在 V3.1-Terminus 的坚实基础上,创新性地引入了 DeepSeek Sparse Attention(一种先进的稀疏注意力机制),专门针对长文本场景下的训练与推理效率进行了深入的探索性优化和实际验证。

具体而言,DeepSeek Sparse Attention(DSA)首次实现了细粒度的稀疏注意力机制,在几乎不牺牲模型输出质量的前提下,显著提升了长文本训练和推理过程的整体效率,为大规模语言模型处理长序列数据开辟了新路径。

据“华为计算”微信公众号最新消息,随着9月29日DeepSeek-V3.2-Exp的发布与开源,其稀疏Attention架构迅速获得产业界支持。昇腾团队已基于vLLM/SGLang等主流推理框架高效完成了适配部署,实现了对DeepSeek-V3.2-Exp的0day无缝支持,并向广大开发者社区全面开源了所有推理代码和核心算子实现。

DeepSeek还进一步透露,在新模型的研发过程中,团队需要设计与实现众多新型GPU算子。官方采用高级语言TileLang进行快速原型开发,以支持更灵活的技术探索。在最终阶段,以TileLang版本作为精度基准,逐步迁移至底层语言实现更高性能的版本。因此,本次开源的主要算子同时提供了TileLang与CUDA两种实现版本。官方建议研究社区在进行实验性探索时,优先使用基于TileLang的版本以便于调试和快速迭代开发。

DeepSeek-V3.2-Exp模型正式发布:稀疏注意力机制引领长文本效率革新与API成本大幅下调 DeepSeek-V3.2-Exp  稀疏注意力机制 API降价 开源模型 第1张

得益于新模型服务成本的大幅降低,DeepSeek官方相应调整了API定价策略。在新的价格政策下,开发者调用DeepSeek API的综合成本预计将降低50%以上,极大促进了人工智能技术的普及与应用。

回顾发展历程,DeepSeek于8月21日正式发布了 DeepSeek-V3.1 版本,该次升级主要包含三大变化:首先是采用混合推理架构,使单一模型同时支持思考模式与非思考模式;其次是显著提升思考效率,相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内生成精准答案;最后是通过Post-Training优化强化Agent能力,新模型在工具调用与智能体任务中的表现获得显著提升。

9月22日,DeepSeek将V3.1版本演进至DeepSeek-V3.1-Terminus版本,此次更新在保持模型原有核心能力的基础上,针对用户反馈的常见问题进行了重点改进,包括:增强语言一致性,有效缓解中英文混杂、偶发异常字符等情况;优化 Agent 能力,进一步改善Code Agent与Search Agent的实际表现。官方表示,DeepSeek-V3.1-Terminus的输出效果相比前一版本更加稳定可靠。

为了严谨评估稀疏注意力机制引入的实际影响,官方特意将DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格对齐。在各类公开评测数据集上的综合测试表明,DeepSeek-V3.2-Exp的整体表现与V3.1-Terminus基本持平,验证了新机制的有效性。