当前位置:首页 > 科技资讯 > 正文

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目

Gemini奥数金牌,实至名归!ETH Zurich博士在大学生国际数学竞赛(IMC)中,测试了Gemini的三种模式,表现远高于前8%的金牌门槛,远超普通大学生。

AI与大学生数学能力孰强孰弱?

近日,MathArena上,苏黎世联邦理工学院SRI实验室博士生Jasper Dekoninck,启动了一项新比赛:大学生国际数学竞赛(IMC)。

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力 数学推理 第1张

最终,LLM以高分胜出:语言模型在国际数学竞赛中拔得头筹。

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力 数学推理 第2张

Gemini远超普通大学生水平

国际数学奥林匹克竞赛(IMO)一直是AI系统数学推理能力的试金石。

前不久,在IMO竞赛中,谷歌、OpenAI等相继宣布其旗下LLM获得IMO金牌级成绩。

由于获奖的AI系统不透明及结果可解释性有限,这些金牌引发广泛质疑。此次在MathArena上,首次评估了AI在本科生数学竞赛上的表现。

测试了三个系统:Gemini Deep Think IMO、Gemini-2.5-Pro及Gemini-2.5-Pro Best-of-32基线。

测试结果显示,三个系统均获得极高分数,远超前8%的金牌门槛。

Gemini Deep Think和Gemini Agent均成功解决所有问题,仅出现少量小错误。而Gemini Best-of-32在IMC的表现远优于IMO。

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力 数学推理 第3张

这次得出了三大结论:

结论1:三个模型在IMC比赛中均获得高分,Gemini Deep Think和Gemini Agent在所有问题中都给出了大部分正确的答案。

结论2:综合考虑证明质量和清晰度,评委们对模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。

结论3:定性分析显示,Gemini Deep Think表现尤为出色,其证明比其他模型清晰有趣。

IMC金牌,含金量如何?

国际大学生数学竞赛IMC由英国伦敦大学学院主办,保加利亚美国大学承办,于2025年7月28日至8月3日在保加利亚布拉戈耶夫格勒举行。

面向本科阶段(1至4年级)学生,参赛者年龄上限为23岁,特殊情况可酌情考虑。不设最低年龄限制。

试题涵盖代数、分析(实分析与复分析)、几何与组合数学。比赛语言为英文。

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力 数学推理 第4张

IMC为期两天,每天五题,每题十分。

Gemini在IMC竞赛中表现出色,AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力 数学推理 第5张

结果分析

Gemini Deep Think:清晰性最强的证明者

对于数学推理而言,表达清晰是评审依据。Gemini Best-of-32虽技术正确但表达混乱;Gemini Agent逻辑性更好但证明冗长;而Gemini Deep Think则语言简练、结构清晰。

Gemini Deep Think:展现了真正的原创思维

AI模型常依赖暴力运算。而Gemini Deep Think策略优雅且创新,如第7题证明简洁且具美感,第9题思路比官方解更简洁且具启发性。

高阶数学知识的调动能力

三个模型均能识别并调用Landau函数已知性质构建完整证明。

网友:o3十分钟搞定题目

网友Dmitry Rybin用o3测试了IMC题目,约十分钟完成。但认为第5题答案有瑕疵可能会被扣分。

AI数学推理,已无法忽视

AI日益强大的数学推理能力令人瞩目。例如,Deep Think使用Shemesh定理给出了一个Dmitry Rybin以前未见过的证明。

参考资料

https://x.com/j_dekoninck/status/...

https://matharena.ai/imc/