沉寂许久的DeepSeek再度崛起!最新发布的DeepSeekMath-V2模型,在IMO 2025竞赛中斩获金牌,其性能堪比甚至超越了谷歌的顶尖模型,开源AI领域再次取得重大突破。
DeepSeekMath-V2荣耀回归!
近期,DeepSeek震撼发布其全新模型DeepSeekMath-V2,并在IMO 2025竞赛中一举夺魁。
尤为值得一提的是,这是全球首个「开源的IMO金牌模型」。
该模型基于DeepSeek V3.2 Exp Base构建。
目前,已有两款模型官宣夺得金牌,一款来自谷歌的Gemini Deep Think,另一款则来自OpenAI的内部模型。
在IMO-ProofBench测试中,DeepSeekMath-V2展现了卓越的定理证明能力:
IMO 2025:成功破解5题(共6题),达到金牌标准;
CMO 2024(中国数学奥林匹克):同样达到金牌水平;
Putnam 2024:得分118,接近满分(120分),超越人类参赛者最高分(90分)。
此外,在ProofBench-Basic测试中,DeepSeekMath-V2性能远超谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced测试中,其性能与谷歌模型不相上下。
论文中,研究团队训练了一个基于LLM验证器(Verifier)的奖励函数,以此训练模型自主解决问题。
他们还对验证器算力进行了扩展,以标注更复杂的证明,并进一步优化了验证器本身。
这种方法极为巧妙,有效缩小了生成与验证之间的差距。
结果表明,「可验证的数学推理」是未来的一个重要研究方向。
DeepSeek最新发布的DeepSeekMath-V2的核心突破在于:自验证(Self-Verification)。
这不仅使它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。
以往训练AI解决数学题的方法十分简单:给它一道题,若答案与标准答案一致便给予奖励。
这在简单的计算题(如AIME竞赛)中颇为有效。
然而,在国际数学奥林匹克(IMO)这一级别,这种方法便彻底失效了。
因为IMO的题目没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程。
以前的AI经常「大忽悠」,它能编造一通看似专业的数学术语,最后强行得出一个结论。虽然可能蒙对结果,但过程全是漏洞。
DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。
为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545226.html