Gemini 2.5 Pro一举夺魁,大模型在IMO 2025挑战中的成绩揭晓了!
经过专业评审,Gemini以超过30%的压倒性优势领先,较第二名高出89%。
o3和o4-mini紧随其后,位列二、三名。而Grok 4得分仅为11.9%,成本却比Gemini高出22%。
有观众好奇,如果之前的IMO银牌得主AlphaProof参赛,结果会如何。
接下来,一起深入了解这场测试的详细情况吧。
这次测试由MathArena组织,基于模型在MathArena竞赛中的历史表现,挑选了包括Gemini 2.5 Pro、o3(high)、o4-mini(high)、Grok 4和DeepSeek-R1(0528)在内的多款模型。
为了公平起见,所有模型均使用统一的提示词模板,与Open Proof Corpus评估相同。
每个模型均按推荐超参数运行,最大Token数量限制为64000。
每个模型针对每个问题会生成32个初始回答,并通过筛选得出各自认为最好的四个答案。
模型最终分数为这四个答案的平均分。
MathArena团队邀请了四名经验丰富的评委,每位评委都具备IMO级别的数学专业知识。
评委首先评估题目并制定评分细则,每道题满分7分,每份答案均为匿名且需由两位评委独立评分。
通过对测试过程的深入分析,MathArena团队也发现了一些有趣的现象。
一是许多模型在满分7分中得3-4分的情况较为罕见,而且模型出错或无法解决的问题对人类来说反而容易解决,这凸显了人类与模型之间的差异。
与早期评估相比,模型过度优化最终答案格式的行为明显减少,表明模型在处理开放式数学推理任务方面取得了进步。
第一题是解析几何题:
...(其余内容保持不变) ......(原文内容保持不变)
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437521.html