当前位置：首页 > 科技资讯 > 正文

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！

Gemini 2.5 Pro一举夺魁，大模型在IMO 2025挑战中的成绩揭晓了！

经过专业评审，Gemini以超过30%的压倒性优势领先，较第二名高出89%。

o3和o4-mini紧随其后，位列二、三名。而Grok 4得分仅为11.9%，成本却比Gemini高出22%。

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！ Pro IMO 2025 MathArena 大模型评测第1张

有观众好奇，如果之前的IMO银牌得主AlphaProof参赛，结果会如何。

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！ Pro IMO 2025 MathArena 大模型评测第2张

接下来，一起深入了解这场测试的详细情况吧。

统一环境，双人匿名评估

这次测试由MathArena组织，基于模型在MathArena竞赛中的历史表现，挑选了包括Gemini 2.5 Pro、o3（high）、o4-mini（high）、Grok 4和DeepSeek-R1（0528）在内的多款模型。

为了公平起见，所有模型均使用统一的提示词模板，与Open Proof Corpus评估相同。

每个模型均按推荐超参数运行，最大Token数量限制为64000。

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！ Pro IMO 2025 MathArena 大模型评测第3张

每个模型针对每个问题会生成32个初始回答，并通过筛选得出各自认为最好的四个答案。

模型最终分数为这四个答案的平均分。

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！ Pro IMO 2025 MathArena 大模型评测第4张

MathArena团队邀请了四名经验丰富的评委，每位评委都具备IMO级别的数学专业知识。

评委首先评估题目并制定评分细则，每道题满分7分，每份答案均为匿名且需由两位评委独立评分。

通过对测试过程的深入分析，MathArena团队也发现了一些有趣的现象。

一是许多模型在满分7分中得3-4分的情况较为罕见，而且模型出错或无法解决的问题对人类来说反而容易解决，这凸显了人类与模型之间的差异。

与早期评估相比，模型过度优化最终答案格式的行为明显减少，表明模型在处理开放式数学推理任务方面取得了进步。

Gemini 2.5 Pro大胜，大模型IMO 2025评测震撼出炉！ Pro IMO 2025 MathArena 大模型评测第5张

第一题是解析几何题：

...（原文内容保持不变）

...（其余内容保持不变） ...

本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260437521.html