当前位置:首页 > 科技资讯 > 正文

DeepSeekMath-V2崛起:开源AI再夺IMO金牌

沉寂许久的DeepSeek再度崛起!最新发布的DeepSeekMath-V2模型,在IMO 2025竞赛中斩获金牌,其性能堪比甚至超越了谷歌的顶尖模型,开源AI领域再次取得重大突破。

DeepSeekMath-V2荣耀回归!

近期,DeepSeek震撼发布其全新模型DeepSeekMath-V2,并在IMO 2025竞赛中一举夺魁。

尤为值得一提的是,这是全球首个「开源的IMO金牌模型」。

DeepSeekMath-V2崛起:开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌 自验证 第1张

该模型基于DeepSeek V3.2 Exp Base构建。

目前,已有两款模型官宣夺得金牌,一款来自谷歌的Gemini Deep Think,另一款则来自OpenAI的内部模型。

在IMO-ProofBench测试中,DeepSeekMath-V2展现了卓越的定理证明能力:

IMO 2025:成功破解5题(共6题),达到金牌标准;

CMO 2024(中国数学奥林匹克):同样达到金牌水平;

Putnam 2024:得分118,接近满分(120分),超越人类参赛者最高分(90分)。

DeepSeekMath-V2崛起:开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌 自验证 第2张

此外,在ProofBench-Basic测试中,DeepSeekMath-V2性能远超谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced测试中,其性能与谷歌模型不相上下。

DeepSeekMath-V2崛起:开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌 自验证 第3张

论文中,研究团队训练了一个基于LLM验证器(Verifier)的奖励函数,以此训练模型自主解决问题。

他们还对验证器算力进行了扩展,以标注更复杂的证明,并进一步优化了验证器本身。

这种方法极为巧妙,有效缩小了生成与验证之间的差距。

DeepSeekMath-V2崛起:开源AI再夺IMO金牌 DeepSeekMath-V2 开源 IMO金牌 自验证 第4张

结果表明,「可验证的数学推理」是未来的一个重要研究方向。

DeepSeekMath-V2:以「自验证」为最强武器

DeepSeek最新发布的DeepSeekMath-V2的核心突破在于:自验证(Self-Verification)

这不仅使它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思

为何只看结果远远不够

以往训练AI解决数学题的方法十分简单:给它一道题,若答案与标准答案一致便给予奖励。

这在简单的计算题(如AIME竞赛)中颇为有效。

然而,在国际数学奥林匹克(IMO)这一级别,这种方法便彻底失效了。

因为IMO的题目没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程

以前的AI经常「大忽悠」,它能编造一通看似专业的数学术语,最后强行得出一个结论。虽然可能蒙对结果,但过程全是漏洞。

DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

秘密武器:三位一体的左右互搏

为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

  • 「做题家」(Generator,证明生成器):
  • 服务器教程免费服务器性价比服务器