当前位置:首页 > 科技资讯 > 正文

DeepSeekMath-V2:可自我验证AI,推动数学难题解决

可自我验证的AI系统,正逐步向解决研究级数学难题迈进。

智东西于11月27日报道,今日,DeepSeek开源了“奥数金牌级”模型DeepSeekMath-V2,该模型拥有强大的定理证明能力

DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中取得了金牌水平的成绩;在2024年普特南大学生数学竞赛(Putnam 2024)中也取得了接近满分的成绩,超越了人类最高的90分记录。

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第1张

如下图所示,DeepSeekMath-V2以显著优势击败了谷歌的IMO金奖得主DeepThink模型。

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第2张

这些成果表明,自验证数学推理是一个值得探索的研究方向,有望助力开发更强大的数学AI系统。

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第3张

  • Hugging Face地址: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
  • 论文地址: https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按照惯例,DeepSeek会将新开源的模型直接上线其平台,我们第一时间进行了体验。

首先,我们让DeepSeek证明一道较简单的题目“证明根号2为无理数”,它迅速给出了正确答案。

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第4张

当输入“证明奇数和偶数哪个多?”这一证明题时,DeepSeek也给出了正确证明过程和答案,大部分读者应该能够看懂。当然,对于更复杂的奥数级证明题,如果有读者能够看懂理解,可以进一步进行体验测试。

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第5张

DeepSeekMath-V2:可自我验证AI,推动数学难题解决 DeepSeekMath-V2 定理证明 数学AI 自验证 第6张

关于模型背后的研发问题,我们来看看论文内容。从现有研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如AIME和HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或偶然的错误得出正确答案。

其次,它不适用于定理证明任务,这类任务中,问题可能不需要生成数值形式的最终答案,严谨的推导才是主要目标。

为此,DeepSeek建议在大型语言模型中开发证明验证能力,基于DeepSeek-V3.2-Exp-Base开发了DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以DeepSeek-V3.2-Exp-SFT的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。

免费vps云服务器