当前位置:首页 > 科技资讯 > 正文

DeepSeek-Math-V2:引领自我验证数学推理新纪元

创新级数学推理模型震撼登场,DeepSeek 引领自我验证数学推理的新方向。

The whale is back!

就在此刻,DeepSeek 悄然在 Hugging Face 上传了最新力作:DeepSeek-Math-V2。

DeepSeek-Math-V2:引领自我验证数学推理新纪元 DeepSeek-Math-V2 数学推理 自我验证 AI模型 第1张

顾名思义,这是一个专注于数学领域的模型。其前作 DeepSeek-Math-7b 还是在一年多以前发布的。当时,这款模型以区区 7B 参数量,便达到了与 GPT-4 和 Gemini-Ultra 相媲美的性能水平。相关论文更是首次引入了 GRPO,极大提升了数学推理能力。

DeepSeek-Math-V2:引领自我验证数学推理新纪元 DeepSeek-Math-V2 数学推理 自我验证 AI模型 第2张

时隔一年半,这款基于 DeepSeek-V3.2-Exp-Base 开发的 DeepSeek-Math-V2 又带来了哪些惊喜呢?

据 DeepSeek 透露,其性能已超越 Gemini DeepThink,实现了 IMO 金牌级的水平。

DeepSeek-Math-V2:引领自我验证数学推理新纪元 DeepSeek-Math-V2 数学推理 自我验证 AI模型 第3张

论文开篇,DeepSeek 就指出了当前 AI 在数学推理方面的局限性:以正确答案作为奖励,过于追求最终答案的准确性。

虽然这种方法能让推理模型在 AIME 和 HMMT 等基准上达到更高水平,甚至达到饱和,但 DeepSeek 表示这并不能解决核心问题:正确答案并不保证推理过程正确。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而不仅仅是数值答案,这使得基于最终答案的奖励方法不适用。

为了推动深度推理的极限,DeepSeek 认为有必要验证数学推理的全面性和严谨性。

他们指出:「自我验证在扩展测试时的计算规模时尤为重要,特别是对于没有已知解的开放性问题。」

为了实现可自我验证的数学推理,DeepSeek 研究了如何训练一个准确且可信赖的基于 LLM 的定理证明验证器。然后,他们使用该验证器作为奖励模型来训练证明生成器,并激励生成器在最终完成证明前尽可能发现并解决自身证明中的问题。

为了在生成器能力增强时保持生成 - 验证差距,DeepSeek 提出扩展验证计算能力,以自动标注新的难以验证的证明,从而生成训练数据进一步提升验证器性能。

简而言之,DeepSeek 这篇论文的核心目标不仅仅是让 AI 做对题,而是让 AI 「不仅会做,还能自己检查,甚至能诚实地承认自己哪里做错了」。

为了实现这一点,他们设计了一套由三个关键角色组成的系统,我们可以用一个「学生 — 老师 — 督导」的类比来理解:

首先,培养合格的「阅卷老师」(Proof Verification)。

过去训练 AI 数学模型,通常只看最后的答案对不对。但在高等数学证明题(如奥数)中,过程严谨比答案更重要。因此,DeepSeek 团队首先训练了一个专门的验证器(Verifier),也就是「阅卷老师」。这个老师不只是打钩打叉,而是学会了像人类专家一样把证明过程分为三档 :

  • 1 分:完美,逻辑严密。
  • 0.5 分:大体正确,但有小瑕疵或细节遗漏。
  • 0 分:有根本性的逻辑错误或严重缺失。

不仅给分,还要写评语:模型被要求在打分前,先写一段分析,指出哪里好、哪里有问题 。

接下来,给老师配个「督导」(Meta-Verification)。

DeepSeek 发现了一个问题:阅卷老师有时候会胡乱扣分,它可能给了个低分,但指出的错误其实根本不存在(也就是产生了幻觉)。

为了解决这个问题,他们引入了元验证(Meta-Verification)机制,相当于给老师配了个「督导」。督导的任务不是看考卷,而是专门检查老师写的「评语」是否合理。这样可以双重确认:督导会检查老师指出的错误是否真实存在,以及扣分是否符合逻辑。效果上,通过训练模型既能当老师又能当督导,AI 评估证明的准确性和可信度大幅提升。

然后,培养会「自省」的学生(Proof Generation with Self-Verification)。

有了好的阅卷系统,接下来就是训练做题的「学生」(生成器)。这里有一个非常关键的创新:诚实奖励机制。也就是说,它不仅做题,还要自评:模型在输出解题过程后,必须马上跟上一段「自我评价」,自己给自己打分(0、0.5 或 1)。

它会对诚实进行奖励:

  • 如果模型做错了,但它在自评中诚实地指出了自己的错误,它会得到奖励 。
  • 相反,如果它做错了却硬说自己是对的(盲目自信),或者试图「蒙混过关」,就会受到惩罚(得不到高奖励)。

这样做的目的是可以迫使 AI 在输出答案前进行深度思考,试图发现并修正自己的错误,直到它认为自己真的做对了为止 。

最后,形成自动化闭环(Synergy)。

人类专家没法给成千上万道奥数题写详细的步骤评分,所以 DeepSeek 设计了一套自动化流程,让系统「左右互搏」来自我进化 :

  • 海量生成:让「学生」对同一道题生成很多种解法。
  • 集体投票:让「老师」对这些解法进行多次评估。如果大多数评估都认为某个解法有问题,那就判定为有问题;如果没有发现任何漏洞,才判定为正确 。
  • 以战养战:通过这种方式,系统自动筛选出那些很难判卷或很难做对的题目,变成新的教材,重新训练「老师」和「学生」。这样,随着「学生」解题能力变强,「老师」的眼光也越来越毒辣 。