令人遗憾的消息,开源与闭源模型之间的鸿沟正在日益加深。
然而,DeepSeek再次出手了。
12月1日,DeepSeek正式推出两款全新模型——DeepSeek V3.2与DeepSeek-V3.2-Speciale。
前者与GPT-5交锋不落下风,后者高性能版更是直接超越GPT,与闭源模型的天花板——Gemini打成平手。
此外,它在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列赛事中斩获金牌。
这是该公司今年第九次发布模型,尽管众人期待的R2仍未现身。
那么,DeepSeek是如何凭借更少的数据、更有限的显卡资源,打造出能与国际巨头抗衡的模型呢?
我们翻阅了他们的论文,试图为大家理清其中的门道。
为了实现这一目标,DeepSeek又祭出了一系列新招:
首先,他们将老朋友DSA——稀疏注意力正式扶正。
这一技术曾在之前的V3.2-EXP版本中试验过,当时仅测试DSA对模型性能的影响,如今已真正应用到主力模型上。
大家在使用大模型聊天时或许会发现,对话框里的对话越长,模型越容易答非所问。
甚至聊得太多,系统会直接中断对话。
这源于大模型原生的注意力机制:在原有逻辑下,每个token生成时,都需要与前面所有token逐一计算关联。
这就导致句子长度翻倍时,计算量激增至四倍;若长度增至三倍,计算量则膨胀为九倍,极为棘手。
DeepSeek意识到问题所在,于是为模型引入固定页数的目录机制(即稀疏注意力),相当于帮模型划出重点。
有了目录后,每次只需计算当前token与这些目录的关系,好比读书先看目录,对感兴趣章节再细读内容。
这样一来,模型处理长文本的能力大幅提升。
从下图可见,随着文本增长,传统V3.1的推理成本急剧上升。
而采用稀疏注意力的V3.2则几乎保持平稳。
堪称省钱冠军。
另一方面,DeepSeek开始高度重视开源模型的后训练环节。
大模型从预训练到考试评分的过程,恰似人类从小学到高考的求学之路。
前期大规模预训练相当于从小学到高二,通读所有课本、练习册和试卷,这一步无论闭源还是开源模型都扎实进行。
但到了冲刺阶段就大不相同:在模型后训练中,闭源模型通常聘请名师、疯狂刷题,运用各种强化学习,最终取得优异成绩。
而开源模型在此环节投入较少,按DeepSeek的说法,过去开源模型在训练后阶段的计算投入普遍偏低。
导致这些模型基础能力虽已到位,但因难题训练不足,成绩不尽如人意。
于是,DeepSeek决定这次亲自上名师辅导班,设计全新强化学习协议,在预训练结束后,投入超过总训练算力10%的资源为模型“开小灶”,补齐短板。
同时还推出能进行超长思考的特殊版本——DeepSeek V3.2 Speciale。
其思路如下:
传统大模型因上下文长度限制,训练时往往设置惩罚机制,若模型思考内容过长则扣分。
而DeepSeek V3.2 Speciale则干脆取消扣分项,反而鼓励模型自由思考,想多久就多久。
最终,这款全新模型成功与近期火爆的Gemini 3一较高下。
此外,DeepSeek对模型的智能体能力也极为重视。
一方面,为提升基础能力,DeepSeek构建虚拟环境,合成成千上万条数据辅助训练。
DeepSeek-V3.2采用24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务进行后训练。
另一方面,DeepSeek优化了模型使用各类工具的流程。
前几代DeepSeek的一个典型问题是:思考与工具调用相分离。
模型一旦调用外部工具,之前的思考便中断,待工具返回结果后,往往需要重新梳理思路。
这导致一种尴尬体验:即便只是查询“今天几月几号”这样的小事,模型也要从头重建推理链,极为耗时。
在V3.2中,DeepSeek彻底推翻了这套逻辑。
新规则变为:在工具调用的整个过程中,模型的“思考过程”持续保留,仅当用户发起新提问时才重置推理;工具的调用记录和结果则像聊天记录一样保留在上下文中。
凭借修改模型架构、重视后训练、强化Agent能力这三大举措,DeepSeek终于让新模型具备了与世界顶尖开源模型再次抗衡的实力。
当然,即便改进众多,DeepSeek的表现也并非尽善尽美。
但托尼最欣赏DeepSeek的一点,是他们敢于承认不足。
并且直接在论文中坦然道出。
例如本次论文提到,尽管DeepSeek V3.2 Speciale能与谷歌的Gemini 3 Pro打成平手。
但回答相同问题,DeepSeek需要耗费更多token。
我也亲自测试了一番:从“人类的最终考试”题库中随机抽取一题,同时交给Gemini 3 Pro和DeepSeek V3.2 Speciale。
题目是:
蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨,这是一种嵌入在膨胀的十字翼腱膜的尾状骨中,嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱?请用数字回答。
结果发现Gemini仅用4972个Tokens便答出。
而DeepSeek则用了8077个Tokens才弄明白。
单纯看用量,DeepSeek的Tokens消耗高出近六成,确实存在差距。
但话又说回来。
DeepSeek虽耗Token多,但价格实惠啊。
还是刚才那个问题,我事后仔细查看了账单。
DeepSeek的8000多Tokens,花费仅0.0032美元。
而谷歌这边,不到5000个Tokens,却耗掉0.06美元!比DeepSeek高出20倍有余。
从这个角度看,似乎还是DeepSeek更划算。
最后,让我们回到论文的开篇。
正如DeepSeek所言,近半年来,开源与闭源模型的差距持续扩大。
但他们仍在用自己的方式不懈追赶。
而DeepSeek种种节省算力、节约数据的操作,不禁让我想起上个月一场关于Ilya Sutskever的访谈。
这位OpenAI的前灵魂人物认为,一味堆砌参数没有未来。
AlexNet仅用两块GPU;Transformer诞生时的实验规模多在8~64块GPU范围内,按今日标准甚至只相当于几块GPU的规模,ResNet亦是如此。没有哪篇论文靠庞大集群完成。
相比算力堆砌,算法研究同样至关重要。
这正是DeepSeek所践行的。
从V2的MoE,到V3的多头潜在注意力(MLA),再到如今DeepSeek Math V2的自验证机制、V3.2的稀疏注意力(DSA)。
DeepSeek展示的进步,从来不是单纯依靠参数规模堆砌而来。
而是致力于用有限的数据,凝聚出更多智能。
巧妇能为无米之炊
那么,R2究竟何时到来呢?
本文由主机测评网于2026-02-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227158.html