Gemini奥数金牌,实至名归!ETH Zurich博士在大学生国际数学竞赛(IMC)中,测试了Gemini的三种模式,表现远高于前8%的金牌门槛,远超普通大学生。
AI与大学生数学能力孰强孰弱?
近日,MathArena上,苏黎世联邦理工学院SRI实验室博士生Jasper Dekoninck,启动了一项新比赛:大学生国际数学竞赛(IMC)。
最终,LLM以高分胜出:语言模型在国际数学竞赛中拔得头筹。
国际数学奥林匹克竞赛(IMO)一直是AI系统数学推理能力的试金石。
前不久,在IMO竞赛中,谷歌、OpenAI等相继宣布其旗下LLM获得IMO金牌级成绩。
由于获奖的AI系统不透明及结果可解释性有限,这些金牌引发广泛质疑。此次在MathArena上,首次评估了AI在本科生数学竞赛上的表现。
测试了三个系统:Gemini Deep Think IMO、Gemini-2.5-Pro及Gemini-2.5-Pro Best-of-32基线。
测试结果显示,三个系统均获得极高分数,远超前8%的金牌门槛。
Gemini Deep Think和Gemini Agent均成功解决所有问题,仅出现少量小错误。而Gemini Best-of-32在IMC的表现远优于IMO。
这次得出了三大结论:
结论1:三个模型在IMC比赛中均获得高分,Gemini Deep Think和Gemini Agent在所有问题中都给出了大部分正确的答案。
结论2:综合考虑证明质量和清晰度,评委们对模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。
结论3:定性分析显示,Gemini Deep Think表现尤为出色,其证明比其他模型清晰有趣。
国际大学生数学竞赛IMC由英国伦敦大学学院主办,保加利亚美国大学承办,于2025年7月28日至8月3日在保加利亚布拉戈耶夫格勒举行。
面向本科阶段(1至4年级)学生,参赛者年龄上限为23岁,特殊情况可酌情考虑。不设最低年龄限制。
试题涵盖代数、分析(实分析与复分析)、几何与组合数学。比赛语言为英文。
IMC为期两天,每天五题,每题十分。
对于数学推理而言,表达清晰是评审依据。Gemini Best-of-32虽技术正确但表达混乱;Gemini Agent逻辑性更好但证明冗长;而Gemini Deep Think则语言简练、结构清晰。
AI模型常依赖暴力运算。而Gemini Deep Think策略优雅且创新,如第7题证明简洁且具美感,第9题思路比官方解更简洁且具启发性。
三个模型均能识别并调用Landau函数已知性质构建完整证明。
网友Dmitry Rybin用o3测试了IMC题目,约十分钟完成。但认为第5题答案有瑕疵可能会被扣分。
AI日益强大的数学推理能力令人瞩目。例如,Deep Think使用Shemesh定理给出了一个Dmitry Rybin以前未见过的证明。
https://x.com/j_dekoninck/status/...
https://matharena.ai/imc/本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439281.html