DeepSeek再次以其标志性的节奏带来惊喜!
在假期来临前夕,DeepSeek果然发布了重要更新。
近日,DeepSeek-V3.2-Exp 模型正式宣布开源!
该模型拥有685B参数,相关资源已发布在HuggingFace平台:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
此外,本次发布还同步公开了技术论文,详细介绍了DeepSeek创新的稀疏注意力机制,揭示了更多技术细节:
论文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
根据官方介绍,DeepSeek-V3.2-Exp 是一个实验性版本。作为向下一代架构过渡的步骤,它在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力机制(DSA),旨在探索和验证在长上下文场景下提升训练和推理效率的稀疏注意力方法。
DSA是3.2版本中唯一的架构改进。
DeepSeek-V3.2-Exp 的架构图,展示了DSA在MLA中的实例化。
重要的是,DeepSeek表示这个实验版本体现了他们对更高效Transformer架构的持续研究,特别关注提升处理长文本序列时的计算效率。
在v3.2版本中,DeepSeek稀疏注意力(DSA)首次实现了细粒度稀疏注意力,在几乎保持模型输出质量不变的情况下,显著提升了长上下文训练和推理的效率。
为了严格评估稀疏注意力机制的影响,DeepSeek将DeepSeek-V3.2-Exp的训练配置与9月22日发布的V3.1-Terminus进行了对比。在多个公开基准测试中,DeepSeek-V3.2-Exp的表现与V3.1-Terminus相当。
更多详细信息,读者可以访问DeepSeek-V3.2-Exp的HuggingFace介绍页面。
值得一提的是,智谱的GLM-4.6也即将发布,在Z.ai官网上,GLM-4.5已被标记为上一代旗舰模型。
最后,有个小插曲。在模型发布前,已有网友在社区发帖表示:国庆是休息日,请给关注此事的同学们一些休息时间。
对于这一发布,你有何看法?
本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115006.html