2024年,当DeepSeek、Qwen、GLM等开源模型相继发布时,整个社区弥漫着乐观情绪,许多人坚信开源正迅速逼近闭源水平。然而,进入2025年后,形势发生了显著变化。DeepSeek在其最新发布的V3.2技术报告中,罕见地直接指出:开源与闭源模型的性能差距不仅没有缩小,反而在持续扩大。这一基于大量实测数据的冷静判断,为业界敲响了警钟。
DeepSeek在论文引言部分直言不讳地写道:“过去几个月出现了明显的分化。虽然开源社区持续进步,但闭源专有模型的性能提升速度显著更快。结果是,两者的差距非但没有缩小,反而在扩大,闭源系统在复杂任务上展现出越来越强的优势。”这一观察有着扎实的数据支撑。论文对比了DeepSeek V3.2与GPT-5、Gemini 3.0 Pro在多个基准测试上的表现。在MMLU-Pro(多学科知识测试)中,DeepSeek V3.2得分85.0,GPT-5为87.5,而Gemini 3.0 Pro达到了90.1。在GPQA Diamond(研究生级别科学问题)测试中,三者的得分分别是82.4、85.7和91.9。
更明显的差距体现在HLE(Human Last Exam,极难的文本推理测试)中。DeepSeek V3.2得分25.1,GPT-5为26.3,而Gemini 3.0 Pro高达37.7——这个差距已不能用“接近”来形容。值得注意的是,DeepSeek V3.2已是目前最强的开源模型,在大多数开源模型对比中处于领先位置。但即便如此,它与顶级闭源模型之间仍存在明显差距,尤其在需要深度推理和复杂任务处理的场景中。
论文通过系统分析,识别出限制开源模型在复杂任务上能力的三个关键缺陷。这些并非表面问题,而是深层次的结构性困境。
第一个问题在于架构层面。开源模型普遍依赖传统的vanilla attention机制,该机制在处理长序列时效率极低。论文指出,这种架构上的依赖“严重限制了长序列的效率,对可扩展部署和有效的后训练构成了实质性障碍”。当闭源模型已开始探索更高效的注意力机制时,许多开源模型仍在使用五年前的技术架构,这本身就是一个巨大劣势。
第二个问题是资源投入的鸿沟,尤其体现在后训练阶段。后训练是让模型从“会说话”变成“会思考”的关键环节,通过强化学习让模型学会推理、工具使用和遵循复杂指令。论文透露,DeepSeek V3.2的后训练计算预算超过了预训练成本的10%。要知道,预训练本身投入巨大,而大部分开源模型的后训练预算可能连1%都不到。这种资源投入上的差距直接导致了性能上的代际差异。
第三个问题是AI Agent能力的滞后。在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后。论文引用了三个关键的Agent测评基准:在MCP-Mark中,DeepSeek V3.2得分45.9,Gemini 3.0 Pro为51.0;在MCP-Universe中,前者为80.3,后者为87.9;在Tool-Decathlon中,差距更加明显。这些数字背后反映的是开源模型在复杂多轮交互、工具调用、长期规划等场景下的能力不足。论文总结道:“开源模型在泛化能力和指令跟随能力方面展现出明显滞后,这阻碍了它们在实际部署中的有效性。”这是一个诚实且残酷的判断。
认识到问题后,DeepSeek没有简单地堆砌参数或增加数据量,而是在三个核心维度上进行了根本性的技术创新。
在架构层面,DeepSeek引入了DSA(DeepSeek Sparse Attention)机制。传统注意力机制的计算复杂度为O(L²),序列长度翻倍计算量就要翻四倍。DSA通过“闪电索引器”(Lightning Indexer)快速计算每个token的重要性评分,然后只选择top-k个最重要的token参与注意力计算(论文中k=2048),将复杂度从O(L²)降至O(L×k)。这个改进不仅是理论上的优化。论文实测数据表明,在128K上下文长度下,DSA大幅降低了推理成本,而性能几乎没有损失。更令人意外的是,在AA-LCR(长文本推理基准)和Fiction.liveBench(小说理解测试)中,V3.2的表现甚至优于使用传统注意力机制的V3.1。这证明DSA不仅更快,在某些场景下质量还更高。
在资源投入层面,DeepSeek做出了超常规的决定。论文明确写道:“近几个月来,性能提升与扩展的RL训练预算持续相关,该预算已超过预训练成本的10%。”这个数字在开源界极为罕见。具体来说,DeepSeek为数学、编程、推理、Agent等六大领域分别训练了专家模型,每个都单独进行大规模强化学习训练。在持续预训练阶段,模型经历了943.7B tokens的训练(在128K上下文长度下),然后采用GRPO(Group Relative Policy Optimization)算法进行混合训练,整合推理、Agent和人类对齐三类任务。
在Agent能力强化方面,DeepSeek开发了系统化的任务合成流程。他们合成了超过1800个多样化环境和85000条复杂提示,涵盖各种真实场景。具体包括24667个代码Agent任务、50275个搜索Agent任务、4417个通用Agent任务和5908个代码解释器任务。这些合成数据并非随机生成,而是通过冷启动阶段学习推理与工具使用的统一模式,然后在规模化阶段系统性地生成高质量训练场景。效果是显著的。在Agent相关测试中,DeepSeek V3.2显著缩小了与闭源模型的差距,在MCP-Universe上达到80.3%的成功率,虽仍低于Gemini的87.9%,但已是开源模型中的最佳表现。论文总结说:“DeepSeek V3.2成为Agent场景中极具成本效益的选择,显著缩小了开源与前沿闭源模型之间的性能差距。”
论文最后写了一句耐人寻味的话:“如果Gemini 3.0证明了持续扩展预训练的潜力,DeepSeek V3.2-Speciale则证明了在大规模上下文环境中强化学习的可扩展性。”言下之意很明显:闭源巨头有资源堆预训练,但开源可以找到自己的路——通过更高效的架构和更科学的后训练,用更少的资源实现接近的效果。这或许是开源AI唯一的生存之道:不是硬碰硬拼资源,而是拼技术路线的创新。至少在这一次,DeepSeek证明了这条路是走得通的。
论文链接:https://arxiv.org/html/2512.02556v1#S5
整理:周华香
本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260327850.html