当前位置：首页 > 科技资讯 > 正文

DeepSeek新模型挑战国际巨头：开源创新再升级

坏消息是，开源与闭源模型的差距正逐渐拉大。但好消息是，DeepSeek再次出手了。

12月1日，DeepSeek推出了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第1张

前者与GPT-5旗鼓相当，高性能版更是将GPT甩在身后，与闭源模型天花板——Gemini打成平手。

还在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）等赛事中夺得金牌。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第2张

这是该公司今年第九次发布模型，尽管备受期待的R2尚未问世。

那么，DeepSeek是如何用更少的数据和显卡，打造出能与国际巨头抗衡的模型呢？

我们翻阅了他们的论文，试图为大家揭示背后的奥秘。

为实现这一目标，DeepSeek采用了不少新策略：

首先，将老朋友DSA——稀疏注意力机制转正。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第3张

这东西在之前的V3.2-EXP版本中出现过，当时只是测试了DSA对模型性能的影响，现在真的将其应用到了主力模型上。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第4张

大家可能发现，与大模型对话时，对话内容越多，模型越容易出错甚至直接中断。

这是因为大模型原生的注意力机制导致的，每个token都要与前面的每个token进行计算，导致计算量随句子长度急剧增加。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第5张

为此，DeepSeek引入了稀疏注意力机制，相当于为模型添加了目录，只计算token与目录的关系，大大提高了效率。

从图中可以看到，随着句子增长，传统V3.1的推理成本增加，而采用稀疏注意力的V3.2则保持稳定。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第6张

另一方面，DeepSeek开始重视开源模型的后训练工作。

大模型从预训练到后训练的过程，类似于人类从小学到高考的过程。虽然预训练阶段大家都差不多，但后训练阶段闭源模型会进行大量强化学习以提升性能。

而开源模型在这方面的投入较少。DeepSeek决定自己也要上“名师辅导班”，设计了一套新的强化学习协议，在预训练结束后投入超过总训练算力的10%进行后训练。

同时还推出了能长时间思考的特制版——DeepSeek V3.2 Speciale。

通过优化模型架构、重视后训练、强化Agent能力等措施，DeepSeek的新模型终于具备了与世界顶尖开源模型一较高下的能力。

当然，DeepSeek的表现并非完美。

但我喜欢DeepSeek的一点是，他们敢于承认自己的不足，并在论文中直接写出来。

例如这次论文提到，尽管DeepSeek V3.2 Speciale能与谷歌的Gemini 3 Pro打成平手，但回答相同问题需要更多tokens。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第7张

题目是：
蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨……请用数字回答。

测试发现Gemini只需4972个Tokens就能回答，而DeepSeek用了8077个Tokens。

DeepSeek新模型挑战国际巨头：开源创新再升级 DeepSeek 新模型开源创新智能模型第8张

尽管如此，DeepSeek的token消耗虽然高，但价格更亲民。

总的来说，DeepSeek在开源模型的道路上不断追赶并超越，展现了其技术创新和对算法研究的重视。

本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545493.html