当前位置:首页 > 科技资讯 > 正文

AI数学竞赛:DeepMind与OpenAI的金牌较量

近期,2025年国际数学奥林匹克(IMO)在澳大利亚落下帷幕,而AI界却在这场竞赛中掀起了波澜。OpenAI和DeepMind纷纷宣布其模型达到了金牌标准,标志着AI在数学推理能力上取得了重大突破。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第1张

在短短两天内,这两家科技巨头展开了激烈竞争。OpenAI率先宣布其保密推理模型以35分达到金牌线,而DeepMind不甘示弱,也在两天后展示了同样出色的成绩。这一成就不仅标志着AI首次在IMO中比肩顶尖学生,还展示了其从2024年银牌到2025年双金牌的惊人进步。

随着技术进展,行业竞争也愈发激烈。当Demis Hassabis公开指责OpenAI提前泄露成绩时,媒体曝出DeepMind金牌团队的三名核心研究员已被Meta挖角。这场顶尖实验室之间的斗争,仍在持续升温。

尽管AI在数学领域的进步令人瞩目,但IMO金牌究竟意味着什么?这是数学界的AlphaGo时刻吗?AI将成为数学研究中值得信赖的合作者,还是沦为市场逻辑下的技术产品?

在本篇文章中,我们邀请了前IMO金牌得主,从亲历者的角度探讨两大AI的解题逻辑和数学水平,并透视竞赛背后的技术突破与数学的未来。

01 前后获得IMO金牌,DeepMind与OpenAI之战

一觉醒来,仿佛回到了高中时代:朋友圈竟有人提及IMO(国际数学奥林匹克竞赛)。记得当年只有学霸们才会挑战这个比赛,而最近却被AI所征服。OpenAI和谷歌DeepMind先后宣布其模型达到了IMO金牌标准。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第2张

尽管只差两天,但这场竞赛却充满了戏剧性。今年的IMO于7月20日在澳大利亚闭幕,而OpenAI在7月18日晚上就宣布了这一消息。

研究员Alexander Wei在X上表示:OpenAI最新的实验性推理大模型,成功实现了人工智能领域的一项长期挑战。在IMO竞赛的6道题目中,它解出了5道,并获得了35分。这一成绩恰好达到了金牌的门槛。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第3张

两天后,DeepMind也宣布其进阶版本模型Gemini Deep Think达到了同样的成就。该模型在整个过程中完全使用自然语言操作,同样获得了35分,并获得了IMO官方组委会的证明。

IMO主席Gregor Dolinar表示:DeepMind的解题在许多方面都令人惊叹,阅卷官认为这些解答清晰、严谨且易于理解。

然而,这一待遇并未给予OpenAI。Demis Hassabis表示:我们之所以没有周五公布,是因为我们尊重IMO组委会的请求。所有AI实验室都应在官方成绩经过独立专家验证且参赛学生获得表彰后,才公开各自的结果。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第4张

他还指出:我们的模型是第一个获得官方“金牌水平”评级的AI系统。这一成就使得OpenAI之前的欢呼显得不那么名正言顺。

但更戏剧性的是,隔天媒体就爆出DeepMind这一金牌模型背后的研究团队中,有三名研究员已被Meta挖走。在此之前的六个月内,已有20名员工被微软挖走。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第5张

看来这场顶尖实验室之间的斗争仍在继续。在吃瓜的同时,我们还是回到IMO竞赛的话题上:AI达到金牌水平到底意味着什么?

首先要知道的是,这还远远说不上是数学领域的AlphaGo时刻。AlphaGo击败了世界围棋冠军李世石,震惊全球。但这次有72位高中生的成绩也达到了金牌标准,其中5位获得了满分。因此要说AI在数学能力上胜过人类还为时过早。

作为能力标准的IMO,证明了AI的数学推理能力

将解答IMO题目作为评估AI推理能力的标准早有先例。去年DeepMind发布了两个专为数学设计的模型:AlphaGeometry和AlphaProof。在IMO的六道题中它们解出了四道成为第一批达到银牌标准的AI系统。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第6张

图源:Google DeepMind

但这两个模型当时并不是用自然语言解题而是结合了“形式化证明”方法。形式化证明就是把数学问题转成机器能“看懂”的语言再由AI用这种形式化语言写出逻辑严谨、可验证的解答。

为了让AI解题研究者得先把自然语言题目“翻译”成Lean(一种现代的定理证明助手和函数式编程语言)让AI处理再转回人类可读的答案。整个过程耗时三天远超IMO给高中生两天、共9小时的比赛限制。

AI数学竞赛:DeepMind与OpenAI的金牌较量 AI 数学竞赛 DeepMind OpenAI 第7张

但这一次DeepMind最新的Gemini Deep Think模型在完全自然语言输入输出的条件下达到了IMO的金牌标准。这意味着AI直接从自然语言读题、用自然语言作答没有依赖Lean或其他形式化工具。这背后的意义很重要。

很多人认为语言模型不具备真正的推理能力。但DeepMind证明了语言模型本身也可以完成高难度数学推理。尽管DeepMind和OpenAI都没有公开模型的具体训练过程但这确实是一次重大进展。