当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API

DeepSeek最新模型V3.2-Exp震撼发布,引入革命性DeepSeek Sparse Attention(DSA)机制,实现训练推理效率飞跃,同时API价格下调50%以上!

最新发布的DeepSeek-V3.2-Exp模型,被DeepSeek誉为最新的实验性力作!

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第1张

V3.2版本在DeepSeek-V3.1-Terminus的基础上,创新性地引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),针对长文本实现高效训练与推理。

值得一提的是,这是首个以「DeepSeek」命名的关键技术(注意力机制)!

DSA源于与北大合作、梁文锋署名的ACL 2025最佳论文中的原生稀疏注意力(Native Sparse Attention,NSA)的改进。

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第2张

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第3张

技术报告揭示,全新注意力机制「DeepSeek稀疏注意力」通过细粒度稀疏机制,在几乎不影响模型效果的前提下,大幅提升长文本训练与推理效率。

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第4张

论文地址:https://github.com/deepseek-ai...

DSA通过引入「闪电索引器」(lightning indexer),实现精准选择最重要的Token进行精细计算,将核心注意力的计算复杂度从O(L²)降至O(Lk),极大提升效率。

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第5张

此外,通过「密集预热」和「稀疏训练」阶段,以及与前代模型相同的后训练流程,确保性能不降反升。

DeepSeek-V3.2-Exp震撼发布:全新DSA机制与半价API DeepSeek-V3.2-Exp DSA 长文本效率 半价API 第6张

评估结果显示,无论是在短文本还是长文本任务上,DeepSeek-V3.2-Exp的性能均优于其前身V3.1-Terminus。

免费vps服务器教程云服务器