坏消息是,开源与闭源模型的差距正逐渐拉大。但好消息是,DeepSeek再次出手了。
12月1日,DeepSeek推出了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。
前者与GPT-5旗鼓相当,高性能版更是将GPT甩在身后,与闭源模型天花板——Gemini打成平手。
还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等赛事中夺得金牌。
这是该公司今年第九次发布模型,尽管备受期待的R2尚未问世。
那么,DeepSeek是如何用更少的数据和显卡,打造出能与国际巨头抗衡的模型呢?
我们翻阅了他们的论文,试图为大家揭示背后的奥秘。
为实现这一目标,DeepSeek采用了不少新策略:
首先,将老朋友DSA——稀疏注意力机制转正。
这东西在之前的V3.2-EXP版本中出现过,当时只是测试了DSA对模型性能的影响,现在真的将其应用到了主力模型上。
大家可能发现,与大模型对话时,对话内容越多,模型越容易出错甚至直接中断。
这是因为大模型原生的注意力机制导致的,每个token都要与前面的每个token进行计算,导致计算量随句子长度急剧增加。
为此,DeepSeek引入了稀疏注意力机制,相当于为模型添加了目录,只计算token与目录的关系,大大提高了效率。
从图中可以看到,随着句子增长,传统V3.1的推理成本增加,而采用稀疏注意力的V3.2则保持稳定。
另一方面,DeepSeek开始重视开源模型的后训练工作。
大模型从预训练到后训练的过程,类似于人类从小学到高考的过程。虽然预训练阶段大家都差不多,但后训练阶段闭源模型会进行大量强化学习以提升性能。
而开源模型在这方面的投入较少。DeepSeek决定自己也要上“名师辅导班”,设计了一套新的强化学习协议,在预训练结束后投入超过总训练算力的10%进行后训练。
同时还推出了能长时间思考的特制版——DeepSeek V3.2 Speciale。
通过优化模型架构、重视后训练、强化Agent能力等措施,DeepSeek的新模型终于具备了与世界顶尖开源模型一较高下的能力。
当然,DeepSeek的表现并非完美。
但我喜欢DeepSeek的一点是,他们敢于承认自己的不足,并在论文中直接写出来。
例如这次论文提到,尽管DeepSeek V3.2 Speciale能与谷歌的Gemini 3 Pro打成平手,但回答相同问题需要更多tokens。
题目是:
蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨……请用数字回答。
测试发现Gemini只需4972个Tokens就能回答,而DeepSeek用了8077个Tokens。
尽管如此,DeepSeek的token消耗虽然高,但价格更亲民。
总的来说,DeepSeek在开源模型的道路上不断追赶并超越,展现了其技术创新和对算法研究的重视。
本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545493.html