当前位置:首页 > 科技资讯 > 正文

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类

人工智能再度在国际奥林匹克竞赛中赢得金牌!于国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro以卓越表现全面击败人类选手,在理论考试和数据分析测试中均斩获最高分。

继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI又一次夺得奥林匹克竞赛冠军头衔。

最新动态显示,在国际天文与天体物理奥林匹克竞赛测试中,GPT-5和Gemini 2.5 Pro达到了金牌水准!

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第1张

理论考试部分,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%;

数据分析考试中:GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第2张

在IOAA 2025赛事中,AI的表现令人震撼,其水平高达人类金牌得主的2.7倍!

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第3张

我们正见证AI技术的大爆发——今日之奥赛竞技,明日之科学突破,AI将驱动所有学科向前迈进。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第4张

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第5张

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第6张

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第7张

AI再夺IOAA金牌,历史性时刻!

国际天文与天体物理奥林匹克竞赛(International Olympiad on Astronomy and Astrophysics,IOAA),是由国际天文学联合会主办的全球青少年天文赛事,作为国际科学奥林匹克竞赛之一,它在天文科学领域具有极高影响力。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第8张

竞赛涵盖理论测试、实测数据分析、天文观测三大核心环节,并设有团队协作项目以促进国际交流。

这些试题极为严苛,通常只有全球顶尖学生才能解答。

它们需要深刻的概念理解、复杂的公式推导,以及耗时数小时的天体物理学难题求解。

如今人工智能不仅能通过考试,更在全球200至300名人类参赛者中位列前茅。GPT-5平均得分85.6%,Gemini 2.5 Pro获得84.2%——两者均达到金牌标准。

我们已进入AI能与物理学和天文学领域最优秀年轻人才竞争的时代。

这不仅是知识比拼,更是涉及中子星、吸积流、磁场和轨道力学的前沿推理。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第9张

人工智能不再仅是生成文字,它已开始探索宇宙奥秘。

但报告指出,在空间和时间推理方面,所有LLM仍面临挑战。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第10张

因此,通向ASI(人工超级智能)之路依旧漫长,需持续探索。

五大LLM竞技,几乎全员夺金

最新研究由俄亥俄州立大学团队完成,重点评估了五大顶尖LLM在天文和物理学领域的实力。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第11张

论文地址:https://arxiv.org/pdf/2510.05016

研究选取了最近四届IOAA理论考试(2022-2025)。选择IOAA的原因有三:

现有基准如AstroMLab、AstroBench等仅通过选择、简答和判断题考察LLM天文学知识;

IOAA题目全面覆盖宇宙学、球面三角学、恒星天体物理学、天体力学、光度学和仪器学等主题;

IOAA融合理论物理、观测约束和真实天文数据与数学计算,为评估LLM科学问题解决能力提供独特视角。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第12张

除了Gemini 2.5 Pro和GPT-5,团队还引入了o3、Claude-4.1-Opus、Claude-4-Sonnet等模型参战。

它们均在AstroBench中表现强劲,并具备多模态能力。

所有模型输出由两名IOAA专家依据官方评分细则独立评估。

实验结果:理论考试

理论考试中,GPT-5和Gemini 2.5 Pro表现最佳,得分比其他模型高出约7到25个百分点。

具体而言(见下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)获最高分,而Gemini 2.5 Pro在2024年以83.0%领先。

在几何题为主的2024年试卷上,Gemini 2.5 Pro凭借更强的几何问题解决能力,取得最佳总体成绩(85.6%);GPT-5该年表现稍逊。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第13张

尽管总体强劲,GPT-5在难题上表现优于简单与中等难度题。

研究人员分析出三点可能原因:

第一,各难度级别问题数量较少,易产生波动:简单题仅10道,中等题11道,分别约占总分185分和151分(总分为所有类别的1200分)。少数错误会显著影响得分。

第二,GPT-5在2024年试卷上出现若干重大失误,多涉及几何与空间可视化题目。

第三,GPT-5有时在天体物理学题上出错。例如,2024年试卷第9题(简单题)中,GPT-5因概念性错误与计算错误损失18分——这一题错误占简单题可得分数的10%。

基于这些原因,研究人员认为,GPT-5在简单题和中等难度题上表现不佳并非明显不当行为;更大数据集可能减少偶尔错误的影响,实现更平衡的难度分布。

其他模型也具有竞争力:OpenAI o3总体得分77.5%,比Claude系列高出约13–17个百分点;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。

此外,这些模型表现随题目难度增加而下降。

尽管三者在简单基准(如带多项选择题的AstroMLab)上表现相近,这次评估仍揭示显著性能差距。

这提示需要更全面评估天文学领域LLM,以测试其超越知识回忆的问题解决能力。

实验结果:数据分析考试

数据分析考试更能揭示模型在细节与多模态任务上的能力与局限(见表1)。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第14张

GPT-5在数据分析部分表现出色,总体得分88.5%,高于其理论考试成绩(84.2%)。

这一提升与其他模型形成鲜明对比:其他模型从理论到数据分析通常下降约10–15个百分点。

原因在于:数据分析考试高度依赖图表解读与数据可视化;GPT-5更强的多模态能力解释了其优势。

为进一步推动天体物理领域大语言模型发展,研究人员呼吁开发更具生态效度的多模态天文数据分析基准,作为对模型更全面评估的补充。

媲美顶尖人类选手

AI实力强劲,那么它们是否可与人类一较高下?

为此,研究人员根据IOAA评分标准,将模型得分与人类参赛者比较。

IOAA奖牌评定基于参赛者总分(理论+数据分析+观测考试之和)相对于中位数的表现——铜牌为中位数的100%–130%,银牌为130%–160%,金牌则为160%以上。

注:本次评估不包含观测考试,作者分别为理论考试和数据分析考试计算了相应奖牌门槛。

理论考试中,几乎所有LLM表现堪称「学霸级别」,得分轻松跨越金牌线!

唯一例外是Claude Sonnet 4,在2023 IOAA中获银牌。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第15张

总体来看,这些模型不仅达到金牌水平,甚至在全球TOP 200-300顶尖人类参赛者中名列前茅。

在2022、2024和2025年考试中,各模型均稳定排名前12。

更令人震撼的是,在2022、2023、2025理论考试中,GPT-5均超过当年IOAA最佳学生,堪称「学神」!

Gemini 2.5 Pro在2022和2023年,同样力压最佳人类选手。

OpenAI o3在2023年考试中,亦超过最佳学生。

Claude Opus 4.1与Claude Sonnet 4在2023年虽未与顶尖学生媲美,但得分仍明显高于中位数,分别位列第45和第62。

LLM偶有失败,仍需上下求索

为更深入了解LLM在天文问题解决中的长处和短处,研究人员根据IOAA理论考试中问题类型进行分析。

根据评分团队专家评估,研究将理论问题分为两类:

• 第一类(几何/空间):涉及空间可视化的问题,包括天球、球面三角学、时间计量系统和向量几何。

• 第二类(物理/数学):主要涉及宇宙学和天体物理计算以及天体力学,不要求几何可视化。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第16张

尽管分类(上表4)不全面,但它清楚揭示系统性差异:模型在第二类物理问题上得分较高(67–91%),而在第一类几何问题上得分明显较低(49–78%),相差15–26个百分点。

这种差异在2024年考试中尤为显著,当时第一类问题占主导——只有Gemini 2.5 Pro保持较高性能(74.7%),而其他模型性能下降至35–59%。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第17张

按年份、难度和类别划分的IOAA理论问题分析

即便如此,Gemini在第一类问题上性能也比第二类问题(91.3%)低12.7个百分点。

为什么LLM在几何问题上表现不佳?

通过定性分析,研究人员发现除计算错误外,LLM还面临根本性问题。

首先,模型在概念上难以理解球面三角学。例如,GPT-5会写出违反基本几何原理的球面三角学方程,并尝试进行与大圆几何不一致的角度计算。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第18张

此外,所有模型在时间计量系统上表现出混淆,无法正确区分热带年和恒星年。一些解答甚至隐含地将日历年和热带年视为相同。

最后,目前LLM只能用自然语言推理,无法在思考时进行空间表示视觉化或草图绘制,这与人类参与者相比处于天然劣势。

这些失败模式表明,多模态推理,特别是空间和时间的,是提升LLM在天文问题解决能力的重要未来方向。

除定性分析外,研究人员还将所有错误定量分为八个类别,以系统识别大语言模型弱点。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第19张

图1:所有模型在IOAA理论考试(2022-2025年,其中2023年得分标准化为300分)和数据分析考试(2022-2025年,其中2023年得分标准化为150分)中按错误类型丢失的分数分布。

理论考试中,概念性错误和几何/空间可视化错误在所有模型中占主导,共同占60-70%总失分。GPT-5和Gemini 2.5 Pro显示最低整体错误率,而Claude模型错误率较高。

分布显示,基本推理错误(概念性和几何性)远超计算错误,特别是Claude模型在概念理解上存在困难,除Gemini 2.5 Pro和GPT-5外所有模型都显示明显几何/空间弱点。

数据分析考试中,错误分布相对平衡,绘图「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出错误类别。

所有模型中,概念性错误最普遍,反映实现深度物理理解的难点。

与国际数学奥赛(IMO)等纯数学竞赛不同,物理和天体物理奥林匹克竞赛要求将数学形式与物理直觉结合,在评估科学推理能力方面别具价值。由于这些错误触及理解核心,它们通常出现在所有类型问题中,并导致严重扣分。

第二大错误来源是几何或空间推理。这些错误完全集中在第一类问题中,这进一步证实空间推理是大语言模型的关键弱点。

模型经常无法可视化三维配置,错误识别天体坐标间角度,或在球面几何中错误应用向量运算。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第20张

这些失败甚至发生在几何问题被清晰文字描述的情况下。这在第一类问题中占大多数,表明这些限制不仅在于多模态,还在于LLM处理空间推理相关任务时的基本能力。

此外,天文学奥林匹克竞赛非常重视近似和数量级推理,因为天文学涉及尺度庞大。

尽管模型通常能合理处理近似问题,但特定失败案例突显物理直觉方面差距。

特别是,模型常在数量级上错误判断天文学距离,或在问题约束下未能识别近似无效的情况。

AI称霸国际天文奥赛:GPT-5与Gemini 2.5 Pro摘金,科学推理能力超越人类 人工智能  国际天文奥赛 GPT-5 Gemini Pro 第21张

解释图表和图像方面错误,尽管仅限于有视觉输入问题,但也具有相当权重。

这种模式与已知LLM多模态限制一致,比如记录图表理解失败,也符合莫拉维克悖论:对人类简单任务如视觉解释,对人工智能仍困难。

最后,当模型未展示中间步骤直接给出最终表达式时,会观察到缺失或不完整推导,表明数学推理透明度存在限制。

其他类别,包括计算错误、符号精度和近似错误,导致扣分较少,表明模型具相当不错计算能力。

数据分析考试中的失败模式

与理论考试不同,数据分析考试错误分布(见图1b)在多个类别中相对均匀。

正如预期,绘图和图表及图像阅读在数据分析考试中也会导致扣分。

能力较弱三个模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要错误类别是绘图,而GPT-5和Gemini 2.5 Pro主要扣分来源是图像和图表阅读。

计算错误也在数据分析考试中导致相当部分扣分。

对于Gemini 2.5 Pro,计算错误与图像和图表阅读一样,是另一主要错误来源。这是因为许多数据分析问题涉及长表格,并需计算多个值以生成图表。

值得注意的是,理论考试中主要扣分原因——概念性错误和几何错误——在数据分析考试中并不突出。

尽管概念性错误可能出现在任何问题中,并仍导致大多数模型在数据分析考试中扣分,但对图表阅读和绘图任务强烈关注使得其他类型错误更可能发生。

参考资料:

https://x.com/gdb/status/1977052555898482727

https://x.com/VraserX/status/1977039338136322463

https://x.com/ai_for_success/status/1977066532628054401