当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破

DeepSeek再次以其标志性的节奏带来惊喜!

在假期来临前夕,DeepSeek果然发布了重要更新。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第1张

近日,DeepSeek-V3.2-Exp 模型正式宣布开源!

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第2张

该模型拥有685B参数,相关资源已发布在HuggingFace平台:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外,本次发布还同步公开了技术论文,详细介绍了DeepSeek创新的稀疏注意力机制,揭示了更多技术细节:

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第3张

论文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention(DSA)稀疏注意力机制

根据官方介绍,DeepSeek-V3.2-Exp 是一个实验性版本。作为向下一代架构过渡的步骤,它在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力机制(DSA),旨在探索和验证在长上下文场景下提升训练和推理效率的稀疏注意力方法。

DSA是3.2版本中唯一的架构改进。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第4张

DeepSeek-V3.2-Exp 的架构图,展示了DSA在MLA中的实例化。

重要的是,DeepSeek表示这个实验版本体现了他们对更高效Transformer架构的持续研究,特别关注提升处理长文本序列时的计算效率。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第5张

在v3.2版本中,DeepSeek稀疏注意力(DSA)首次实现了细粒度稀疏注意力,在几乎保持模型输出质量不变的情况下,显著提升了长上下文训练和推理的效率。

为了严格评估稀疏注意力机制的影响,DeepSeek将DeepSeek-V3.2-Exp的训练配置与9月22日发布的V3.1-Terminus进行了对比。在多个公开基准测试中,DeepSeek-V3.2-Exp的表现与V3.1-Terminus相当。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第6张

更多详细信息,读者可以访问DeepSeek-V3.2-Exp的HuggingFace介绍页面。

值得一提的是,智谱的GLM-4.6也即将发布,在Z.ai官网上,GLM-4.5已被标记为上一代旗舰模型。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第7张

最后,有个小插曲。在模型发布前,已有网友在社区发帖表示:国庆是休息日,请给关注此事的同学们一些休息时间。

DeepSeek-V3.2-Exp开源发布:稀疏注意力机制DSA的创新突破 DeepSeek  稀疏注意力 AI开源 模型优化 第8张

对于这一发布,你有何看法?