当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章

又是一波熟悉的更新！

在假期前夕，DeepSeek 再次带来惊喜。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第1张

刚刚，DeepSeek-V3.2-Exp 宣告开源！

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第2张

这款模型拥有 685B 的参数量，你可以在 HuggingFace 上找到它：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

更令人兴奋的是，这次发布还同步公开了论文，深入揭示了 DeepSeek 全新的稀疏注意力机制（DSA），为我们揭示了更多技术细节：

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第3张

DeepSeek Sparse Attention（DSA）机制详解

据官方介绍，DeepSeek 表示 DeepSeek-V3.2-Exp 是实验性版本，作为向下一代架构过渡的桥梁，它在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制（DSA）—— 一种旨在优化长上下文场景下训练和推理效率的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第4张

在 DeepSeek-V3.2-Exp 的架构中，DSA 在 MLA 下实例化。

重要的是，DeepSeek 强调该实验版本代表了对更高效 Transformer 架构的持续研究，特别关注在处理扩展文本序列时的计算效率。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第5张

在 v3.2 版本中，DeepSeek 稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。

为了严格评估引入稀疏注意力机制的影响，DeepSeek 将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日发布的 V3.1-Terminus 进行了对比。在多个领域的公开基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相仿。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第6张

更多详情，请查阅 DeepSeek-V3.2-Exp 的 huggingface 页面。

值得一提的是，智谱的 GLM-4.6 也即将发布，你可以在 Z.ai 官网看到，GLM-4.5 被标记为上一代旗舰模型。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第7张

最后，有个小插曲。在模型发布前，已有网友在社区发帖表示：国庆是休息日，请给我们关注的同学一点休息时间。

DeepSeek-V3.2-Exp开源：探索稀疏注意力机制的新篇章 DeepSeek-V3.2-Exp 稀疏注意力机制 DSA 开源第8张

对此你怎么看？

本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542147.html