人工智能技术正以飞速的步伐演进。近日,有网友调侃道:我们几乎每天都能见证AI领域引人注目的新突破。
回顾三个月前,OpenAI曾正式宣布其推理模型在国际数学奥林匹克(IMO)竞赛中夺得金牌。
如今看来,大型语言模型不仅在数学领域展现出强大的推理泛化能力,还在众多其他科学研究领域表现卓越。
值得注意的是,当前顶尖的大模型均能在各类奥林匹克竞赛中取得令人惊叹的成绩。
最近,一项新发布的论文将国际天文学和天体物理学奥林匹克竞赛 (IOAA) 作为基准测试,证实了 GPT-5 和 Gemini 2.5 Pro 两大模型能够在天文学和天体物理学领域取得奥赛金牌级别的成绩。
OpenAI 的总裁兼联合创始人 Greg Brockman 转发了这项研究,甚至激动地将 GPT 的名字打错了:
未来,当人类迈向星辰大海时,AI大模型的贡献必将留下深刻印记。
大型语言模型的兴起为人工智能在科学研究,尤其是天文学和天体物理学领域开辟了新路径。尽管传统天文学机器学习方法在模式识别任务(如目标分类和异常检测)上效果显著,但它们通常缺乏解决复杂科学问题所需的通用性和深度推理能力。
当前用于评估天文学领域 LLM 的基准,例如 AstroBench 和 Astro-QA,主要聚焦于简单问答形式,通过多项选择或简答题测试天文学知识。这些评估未能涵盖真实天文学研究中不可或缺的复杂推理、创造性问题解决和扩展推导能力。本研究通过引入一个更严谨、更全面的评估框架来弥补这一关键空白。
研究人员选取 2022 年至 2025 年的国际天文奥林匹克竞赛(IOAA)试题作为核心基准。这一选择基于三个关键理由:
首先,与 AstroMLab 的 AstroBench 和 Astro-QA 这类主要依赖选择题、简答题或判断题来检测天文知识的现有基准不同,IOAA 试题具备更高的生态有效性,因为它考查的是实际天文研究所需的复杂推理、创新性问题求解以及多步推导技能。
其次,根据官方大纲,IOAA 题目涵盖了广泛的天文主题,包括宇宙学、球面三角学、恒星天体物理、天体力学、光度测量以及观测仪器学,从而确保了评测的全面性。
最后,IOAA 将理论物理、观测约束以及真实天文数据与数学推导相结合,提供了一种区别于 IMO、IPhO 和 IOI 等其他奥赛的新型评估方式,可用于检验 LLM 在科学问题求解方面的综合能力。
评估重点关注 IOAA 的两个组成部分:理论问题(共 49 个)和数据分析问题(共 8 个)。理论问题分为第一类(几何 / 空间,需要天球几何和球面三角学)和第二类(物理 / 数学,侧重天体物理计算,无需几何可视化)。由于 LLM 的数字特性,观测部分被排除在外。
不同难度类别下,LLM 在 IOAA 理论题与数据分析题中的表现。所有分数均为相对于总分的标准化百分比。
如数据所示,GPT-5 和 Gemini 2.5 Pro 在理论考试中表现最为出色,比分领先其他模型 7~25 个百分点。具体而言,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 则在 2024 年以 83.0% 位列第一。
尽管整体表现强势,但我们观察到 GPT-5 在难题上的表现反而优于简单题与中等难度题。分析显示,这种看似反常的波动主要由三方面因素导致:
1. 每个难度等级的问题数量较少,导致模型表现的自然波动。简单题仅有 10 题,中等难度有 11 题,总分分别约为 185 分和 151 分,而总分为 1200 分,因此少量失误就会显著影响该难度区间的得分比例。
2. GPT-5 在 2024 年试题中出现了多次关键性错误,其中很大一部分集中在需要几何推理与空间想象的问题上。
3. GPT-5 偶尔会在天体物理概念题上出错。例如,在 2024 年试题的第 9 题(归为简单题)中,GPT-5 因一次概念性错误叠加一次计算错误丢失了 18 分,而这相当于简单题总分的近 10%。
其他模型也展现出一定竞争力:OpenAI o3 总体得分为 77.5%,并稳定领先 Claude 系列 13~17 个百分点,其中 Claude Opus 4.1 得分为 64.7%,Claude Sonnet 4 为 60.6%。此外,它们的表现均随着难度提升而下降。尽管这三款模型在 AstroMLab 这类更简单的多选题基准上表现接近甚至出色,我们的评测结果揭示了在复杂问题求解上仍存在显著能力差异。该结果提示:要真正评估 LLM 在天文学领域的科研潜力,必须超越知识回忆型任务,构建更全面的能力评估框架。
虽然 LLM 在理论考试中接近顶尖人类水平,但数据分析考试更能揭示其细粒度的能力结构与局限。GPT-5 在数据分析部分取得了 88.5% 的平均分,反而高于其理论考试表现(84.2%)。这种提升与其他模型形成鲜明对比 —— 其他 LLM 的数据分析得分普遍比理论试题下降了 10~15 个百分点。
这种分化主要源于数据分析试题高度依赖图像阅读、曲线理解与数据可视化推理的特点。GPT-5 拥有更强的多模态理解能力,在图像解析和绘图推理错误率方面显著更低,这直接支撑了其优势表现。
为了进一步推动 LLM 在天体物理领域向科研级智能体迈进,我们的结果强调:除了整体性评估外,还迫切需要具有生态效度的、多模态数据分析基准来全面检验模型在真实科研流程中的问题求解能力。
为更好地理解 LLM 的表现,我们将其得分与 IOAA 的奖牌评定标准下的人类参赛者成绩进行比较。具体而言,奖牌依据与中位数成绩的比值来颁发(中位数按理论、数据分析与观测三部分成绩之和计算):若得分在中位数的 100%–130% 之间为铜牌,130%–160% 为银牌,高于 160% 则为金牌。由于我们的评测范围不包括观测(observational)试题,因此我们分别根据理论考试与数据分析考试计算了对应的奖牌门槛。
大多数 LLM 的表现均超过金牌门槛。唯一例外是 Claude Sonnet 4,在 2023 年考试中仅获银牌。尤其值得注意的是,GPT-5 在 2022、2023 与 2025 年的表现优于当届 IOAA 的最佳学生,而 Gemini 2.5 Pro 在 2022 与 2023 年也达到相同水平。
LLM 与人类参赛者在 IOAA 理论考试(2022–2025)中的表现对比。
LLM 与人类参赛者在 IOAA 数据分析考试(2022–2025)中的表现对比。
IOAA 理论考试中不同题目类别下的模型表现。类别 I 为几何 / 空间类问题,类别 II 为物理 / 数学类问题。所有分数均以百分比形式表示。
在理论考试中,大型语言模型在第二类(物理 / 数学)问题上的表现(67-91% 的准确率)明显优于第一类(几何 / 空间)问题(49-78% 的准确率),性能差异为 15-26 个百分点。
最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷。这表明在实现深刻的物理理解方面存在根本性挑战。几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和 3D 可视化方面尤其吃力。
在数据分析考试中,错误在不同类别中分布更为均匀。主要的故障模式包括绘图和图表 / 图像阅读,这在 OpenAI o3 和 Claude 模型中尤为突出。由于对大型数据集进行大量计算,计算错误比理论考试中更常见。
按错误类型划分的丢分分布:(a)IOAA 理论考试 2022–2025;(b)IOAA 数据分析考试 2022–2025。
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115850.html