当前位置：首页 > 科技资讯 > 正文

DeepSeekMath-V2崛起：开源AI再夺IMO金牌

沉寂许久的DeepSeek再度崛起！最新发布的DeepSeekMath-V2模型，在IMO 2025竞赛中斩获金牌，其性能堪比甚至超越了谷歌的顶尖模型，开源AI领域再次取得重大突破。

DeepSeekMath-V2荣耀回归！

近期，DeepSeek震撼发布其全新模型DeepSeekMath-V2，并在IMO 2025竞赛中一举夺魁。

尤为值得一提的是，这是全球首个「开源的IMO金牌模型」。

DeepSeekMath-V2崛起：开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌自验证第1张

该模型基于DeepSeek V3.2 Exp Base构建。

目前，已有两款模型官宣夺得金牌，一款来自谷歌的Gemini Deep Think，另一款则来自OpenAI的内部模型。

在IMO-ProofBench测试中，DeepSeekMath-V2展现了卓越的定理证明能力：

IMO 2025：成功破解5题（共6题），达到金牌标准；

CMO 2024（中国数学奥林匹克）：同样达到金牌水平；

Putnam 2024：得分118，接近满分（120分），超越人类参赛者最高分（90分）。

DeepSeekMath-V2崛起：开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌自验证第2张

此外，在ProofBench-Basic测试中，DeepSeekMath-V2性能远超谷歌金牌模型——Gemini Deep Think；在ProofBench-Advanced测试中，其性能与谷歌模型不相上下。

DeepSeekMath-V2崛起：开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌自验证第3张

论文中，研究团队训练了一个基于LLM验证器（Verifier）的奖励函数，以此训练模型自主解决问题。

他们还对验证器算力进行了扩展，以标注更复杂的证明，并进一步优化了验证器本身。

这种方法极为巧妙，有效缩小了生成与验证之间的差距。

DeepSeekMath-V2崛起：开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌自验证第4张

结果表明，「可验证的数学推理」是未来的一个重要研究方向。

DeepSeekMath-V2：以「自验证」为最强武器

DeepSeek最新发布的DeepSeekMath-V2的核心突破在于：自验证（Self-Verification）。

这不仅使它在最难的数学竞赛中横扫人类顶尖选手，更重要的是，它揭示了通往更高级AI的一条必经之路——学会自我反思。

以往训练AI解决数学题的方法十分简单：给它一道题，若答案与标准答案一致便给予奖励。

这在简单的计算题（如AIME竞赛）中颇为有效。

然而，在国际数学奥林匹克（IMO）这一级别，这种方法便彻底失效了。

因为IMO的题目没有简单的数值答案，而是要求你写出一段逻辑无懈可击的证明过程。

以前的AI经常「大忽悠」，它能编造一通看似专业的数学术语，最后强行得出一个结论。虽然可能蒙对结果，但过程全是漏洞。

DeepSeekMath-V2决定从根本上改变规则，不仅要奖励正确的答案，更要奖励严谨的「自我找茬」过程。

为了实现这种「自我反思」，DeepSeek设计了一套精妙的「左右互搏」系统，就像在AI的大脑里住了三个人：