当前位置:首页 > 科技资讯 > 正文

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小

AI界奥数杯,再次点燃战火!OpenAI o3首次参赛,凭借强大的算力,以惊人的47分震撼全场。尤为值得一提的是,前五模型合并得分与o3仅差5分,开源与闭源的差距正在快速缩小。

回顾「AI奥数」第二届大赛,英伟达团队(NemoSkills)曾夺魁!

此次,AIMO2组委会再度重启赛题,OpenAI o3首秀即惊艳,拿下耀眼成绩。

陶哲轩激动地表示,以往该比赛仅允许开源模型参与,且计算资源受限。

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小 AI奥数杯 OpenAI o3 算力 开源闭源差距 第1张

幸运的是,在AIMO第二轮比赛中,NemoSkills与清华微软imagination research、以及o3同台竞技。

测试分为两种情况:一是提供相似的计算资源,二是放开算力限制。

结果显而易见,算力越充足,模型表现越出色。

在算力充足的情况下,OpenAI o3狂揽47分(满分50分)。若每题有两次机会,冲满分亦非难事。

另一有趣现象是,在计算资源相同条件下,开源模型与商业模型的差异并不显著。

今日,这份详尽的研究测试报告正式公布。

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小 AI奥数杯 OpenAI o3 算力 开源闭源差距 第2张

报告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

让我们一同探究o3在实际测试中的卓越表现。

奥数级挑战,AI领军者

对于科学可复现性,确保开源模型的广泛可得性至关重要。那么,开源模型与闭源模型之间的性能差距究竟有多大?

在数学推理场景下,本次测评提供了更深刻的理解:

在奥数难度的数学推理上,商用和开源AI的差距正在缩小。

开源即将追赶并超越商用模型。

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小 AI奥数杯 OpenAI o3 算力 开源闭源差距 第3张

去年,Epoch AI估算:当前最佳开源模型在性能和训练算力方面与封闭模型相当,但存在约一年的差距。

人工智能数学奥林匹克(AIMO)创立于2023年,旨在推动开源AI模型在高阶数学推理领域的发展。

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小 AI奥数杯 OpenAI o3 算力 开源闭源差距 第4张

比赛传送门:https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize...

2025年4月,第二届AIMO进展奖(AIMO Progress Prize 2,简称AIMO2)圆满落幕。

本阶段题目难度进一步提升,主要围绕各国奥赛级别(如英国数学奥林匹克BMO、美国数学奥林匹克USAMO)。

AI奥数杯重启:OpenAI o3惊艳全场,开源与闭源差距缩小 AI奥数杯 OpenAI o3 算力 开源闭源差距 第5张

AIMO2私榜前五名队伍及其成绩如下(括号内为公榜成绩):

  • NemoSkills:34/50(公榜:33/50)
  • imagination-research:31/50(公榜:34/50)
  • Aliev:30/50(公榜:28/50)
  • sravn:29/50(公榜:25/50)
  • usernam:29/50(公榜:25/50)

Kaggle的「公榜」在赛事全程向参赛者公开,但为防数据泄露,不会公开具体数据。

因反复评测可能间接泄露信息(即便题目不公开),Kaggle还提供包含相似难度题目的「私榜」,仅于赛末对模型进行一次性评估,以确定最终排名。

考虑到相较于AIMO1题目难度显著提升,这样的成绩相当耀眼。

然而,一个有趣且关键问题仍未解答:当闭源AI模型参与AIMO竞赛时,将交出怎样的答卷?