当前位置：首页 > 科技资讯 > 正文

AlphaProof：人工智能首达IMO银牌水平登顶《自然》

主机测评网
科技资讯
2026-01-23
690

近日，首个在国际数学奥林匹克竞赛（IMO）中达到银牌水平的人工智能模型——AlphaProof，在权威科学期刊《自然》上发表了突破性成果。

AlphaProof：人工智能首达IMO银牌水平登顶《自然》人工智能数学奥林匹克强化学习形式化验证第1张

论文链接：https://www.nature.com/articles/s41586-025-09833-y

去年，Google DeepMind 凭借 AlphaProof 这一奥赛级人工智能模型，在学术界引发巨大轰动，被业内誉为“登月”般的里程碑时刻。

据论文阐述，AlphaProof 的成就证实了“自动化系统已拥有攻克传统难题的数学能力”，这不仅是技术上的重大进展，也为“可验证的机器推理”开辟了切实路径。

AlphaProof：人工智能首达IMO银牌水平登顶《自然》人工智能数学奥林匹克强化学习形式化验证第2张

新闻与观点文章链接：https://www.nature.com/articles/d41586-025-03585-5

在同期发表的新闻与观点文章中，伊利诺伊大学厄巴纳-香槟分校助理教授 Talia Ringer 指出：

AlphaProof 是她所体验的首款“真正实用的 AI 工具”，具备“高度可靠”的证明质量，每一步推理都能获得证明辅助工具的即时反馈，从而规避了自然语言推理中常见的模糊与错误，这是自然语言模型难以企及的。

“尽管仍存在限制......但无疑，这一领域正在经历深刻变革，AlphaProof 或许正是未来趋势的先行者。”

AlphaProof：首次实现奥数级形式化推理

培养能够在复杂、开放环境中进行有效推理并找到解决方案的智能体（Agent），是人工智能研究的一项核心挑战。

数学，特别是奥数题目，需要创造性思维和多步推理能力，因此被视为评估高级智能体能力的标准化场景。

在这项研究中，团队延续了先前在 AlphaZero 等系统中的理念：通过强化学习让智能体在规则明确的环境中进行自我博弈与优化；不同之处在于，这次的“棋盘”并非围棋或国际象棋，而是数学定理本身。

在具体实施上，AlphaProof 将数学定理证明过程转化为一个强化学习任务。在 Lean 定理证明器环境中，每一次证明过程都被定义为状态、动作与奖励，通过持续尝试与反馈，学习如何将假设推导为结论，逐步构建稳定的推理策略。

AlphaProof：人工智能首达IMO银牌水平登顶《自然》人工智能数学奥林匹克强化学习形式化验证第3张

图｜AlphaProof 核心推理组件

AlphaProof 的训练过程分为多个阶段。首先，模型在约 3000 亿 token 的数学与代码语料上进行预训练，以掌握符号逻辑、语法和基础数学语言结构。随后，研究者利用约 30 万条 Lean tactic 证明数据对模型进行监督微调，使其理解 Lean 的形式化语法与命令结构。

为构建大规模训练数据，他们开发了基于 Gemini 模型的自动形式化系统，将自然语言题目转换为 Lean 的逻辑表达。该系统自动生成了约 8000 万个形式化数学问题，涵盖代数、数论、几何与组合数学等多个领域，成为 AlphaProof 强化学习的核心训练素材。

在主训练阶段，AlphaProof 系统在生成的问题上进行自我博弈式学习：不断尝试证明、验证结果、更新策略，并通过 Lean 核心验证正确性，形成强化学习循环——每当系统成功证明时，获得正向奖励；若失败，则回溯并尝试新路径，从而逐步掌握复杂推理模式。研究团队称，这一过程累计消耗了约 8 万 TPU 天的计算资源。

在推理阶段，研究团队提出了“测试时强化学习”（TTRL）机制，当AlphaProof 遇到高难度或新题目时，会围绕目标问题临时生成数千个结构相似的变体，在这些变体上进行短期自我强化学习，然后将更新后的策略应用回原题求解。

这种“临场学习”方法显著增强了模型的泛化与解决新题的能力：实验结果显示，TTRL 让系统的解题率在多项基准上提升了约 10%–15%。

AlphaProof：人工智能首达IMO银牌水平登顶《自然》人工智能数学奥林匹克强化学习形式化验证第4张