DeepSeek最新模型V3.2-Exp震撼发布,引入革命性DeepSeek Sparse Attention(DSA)机制,实现训练推理效率飞跃,同时API价格下调50%以上!
最新发布的DeepSeek-V3.2-Exp模型,被DeepSeek誉为最新的实验性力作!
V3.2版本在DeepSeek-V3.1-Terminus的基础上,创新性地引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),针对长文本实现高效训练与推理。
值得一提的是,这是首个以「DeepSeek」命名的关键技术(注意力机制)!
DSA源于与北大合作、梁文锋署名的ACL 2025最佳论文中的原生稀疏注意力(Native Sparse Attention,NSA)的改进。
技术报告揭示,全新注意力机制「DeepSeek稀疏注意力」通过细粒度稀疏机制,在几乎不影响模型效果的前提下,大幅提升长文本训练与推理效率。
论文地址:https://github.com/deepseek-ai...
DSA通过引入「闪电索引器」(lightning indexer),实现精准选择最重要的Token进行精细计算,将核心注意力的计算复杂度从O(L²)降至O(Lk),极大提升效率。
此外,通过「密集预热」和「稀疏训练」阶段,以及与前代模型相同的后训练流程,确保性能不降反升。
评估结果显示,无论是在短文本还是长文本任务上,DeepSeek-V3.2-Exp的性能均优于其前身V3.1-Terminus。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542163.html