震撼来袭!
ChatGPT发布三周年之际,DeepSeek强势推出两款新模型:
前者注重平衡与实用,覆盖日常问答、通用Agent任务及实际应用场景的工具调用。
其推理能力已逼近GPT-5,稍逊于Gemini-3.0-Pro。
后者主打极致推理,性能直追Gemini-3.0-Pro,并在多项国际竞赛中摘金夺魁。
尤为值得一提的是,在ICPC和IOI竞赛中,分别位列人类选手第二和第十。
具体而言,DeepSeek-V3.2在保持推理能力的同时,优化了输出长度,降低了计算成本。 DeepSeek官方表示:“DeepSeek-V3.2模型在Agent评测中已居开源模型之冠”。 该模型还具备以下特点: 下图展示了DeepSeek-V3.2与其他模型在各类Agent工具调用评测集上的得分。 ——需强调,DeepSeek-V3.2未针对这些测试集进行特殊训练。 DeepSeek-V3.2-Speciale是DeepSeek-V3.2的增强版,融合了DeepSeek-Math-V2的定理证明能力。 在指令执行、数学证明、逻辑验证方面表现出色,适用于高度复杂的数学推理、编程竞赛及学术研究。 特别说明!此版本目前未针对日常对话与写作进行优化。 且仅供研究使用,不支持工具调用。 虽然Speciale模型在高度复杂任务上表现优异,但消耗的Tokens也更多,成本更高。 目前,DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2;Speciale版本则通过临时API提供。 模型发布的同时,技术报告也已公开。 报告中透露的技术细节颇为硬核: DeepSeek-V3.2最大的创新是引入DSA(DeepSeek Sparse Attention)机制。 传统注意力机制在处理长序列时计算复杂度为O(L²),限制了模型的部署效率和可扩展性。 DSA将计算复杂度降至O(L·k),其中k远小于L。 这不仅显著加速了长上下文任务的推理,且性能未受影响。 支持FP8精度和MLA架构,训练更友好。 DSA包含两个核心组件: 闪电索引器负责快速计算查询Token与历史Token之间的相关性分数,仅选择top-k个最相关Token进行注意力计算。 团队采用ReLU激活函数提升吞吐量。 在继续训练DeepSeek-V3.1-Terminus时,团队采用两阶段策略: “后训练”阶段计算资源投入不足
引入DSA高效稀疏注意力机制,长文本不再是难题
“后训练”算力提升超预训练10%
...(省略了部分具体训练策略的描述)...
...(省略了部分Agent任务突破的描述)...
...(省略了部分技术报告最后局限性的描述)...
本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545418.html