当前位置：首页 > 科技资讯 > 正文

Gemini在IMC竞赛中表现出色，AI数学能力令人瞩目

主机测评网
科技资讯
2026-04-21
951

Gemini奥数金牌，实至名归！ETH Zurich博士在大学生国际数学竞赛（IMC）中，测试了Gemini的三种模式，表现远高于前8%的金牌门槛，远超普通大学生。

AI与大学生数学能力孰强孰弱？

近日，MathArena上，苏黎世联邦理工学院SRI实验室博士生Jasper Dekoninck，启动了一项新比赛：大学生国际数学竞赛（IMC）。

Gemini在IMC竞赛中表现出色，AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力数学推理第1张

最终，LLM以高分胜出：语言模型在国际数学竞赛中拔得头筹。

Gemini在IMC竞赛中表现出色，AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力数学推理第2张

Gemini远超普通大学生水平

国际数学奥林匹克竞赛（IMO）一直是AI系统数学推理能力的试金石。

前不久，在IMO竞赛中，谷歌、OpenAI等相继宣布其旗下LLM获得IMO金牌级成绩。

由于获奖的AI系统不透明及结果可解释性有限，这些金牌引发广泛质疑。此次在MathArena上，首次评估了AI在本科生数学竞赛上的表现。

测试了三个系统：Gemini Deep Think IMO、Gemini-2.5-Pro及Gemini-2.5-Pro Best-of-32基线。

测试结果显示，三个系统均获得极高分数，远超前8%的金牌门槛。

Gemini Deep Think和Gemini Agent均成功解决所有问题，仅出现少量小错误。而Gemini Best-of-32在IMC的表现远优于IMO。

Gemini在IMC竞赛中表现出色，AI数学能力令人瞩目 Gemini IMC竞赛 AI数学能力数学推理第3张

这次得出了三大结论：

结论1：三个模型在IMC比赛中均获得高分，Gemini Deep Think和Gemini Agent在所有问题中都给出了大部分正确的答案。

结论2：综合考虑证明质量和清晰度，评委们对模型的排名如下：Gemini Deep Think>Gemini Agent>Gemini Best-of-32。

结论3：定性分析显示，Gemini Deep Think表现尤为出色，其证明比其他模型清晰有趣。