在学科竞赛的激烈角逐中,物理因题目的复杂性和高推理要求,长期以来被视为人工智能(AI)面临的最大挑战之一。与语言类任务相比,物理问题通常涵盖图像识别、单位换算、公式推导和近似计算等多个环节,这更考验系统对现实世界的理解与建模能力。
随着AI技术的不断进步,并在向通用人工智能(AGI)乃至超级人工智能(ASI)的迈进中,能否通过物理抽象理解世界、解决问题,正成为构建高水平智能系统的关键。
在2025年国际物理奥林匹克竞赛中,名为Physics Supernova的AI系统交出了令人瞩目的成绩单:在3道理论题测试中,共获得23.5分(满分30分),在所有406名参赛选手中排名第14,且在三道题目中均进入人类前10%,超越了人类金牌选手的平均得分。
该系统由普林斯顿大学王梦迪教授团队及其合作者共同打造,两位第一作者分别是普林斯顿大学博士Jiahao Qiu和清华姚班大四本科生史景喆(在2021年国际物理奥林匹克竞赛中获得金牌,全球排名第十)。
论文链接:https://arxiv.org/abs/2509.01659
不同于依赖题库的传统方式,Physics Supernova通过图像分析、答案复核等工具模块,结合LLM的推理能力,实现了从题目理解到建模计算的完整过程。这一结果表明,合理集成工具的Agent架构,能够显著提升AI在复杂科学问题上的推理与解题能力,其表现已逼近人类顶尖选手,为AI在科学探索领域开辟了新的可能性。
业内专家指出,这一成绩不仅展示了AI在物理解题上的突破性进展,也意味着其科学推理领域的应用边界正在被重新定义。
Physics Supernova是一个专为解决复杂物理理论问题设计的AI Agent系统,基于smolagents框架,并采用CodeAgent架构。
与数学解题中常见的固定、手工编码的工作流不同,该系统强调具备灵活自我规划的能力,能够根据当前的解题进展,动态调用不同的工具。
研究团队为该系统配置了两个面向物理问题的专用工具:图像分析器(ImageAnalyzer)与答案复查器(AnswerReviewer)。
对于物理学家而言,解读实验结果、从图像中提取关键数据是极其重要的能力。在部分物理奥赛题中,这甚至是解题过程的核心环节。然而,目前的LLM在图表、图像与示意图等视觉数据的精确测量方面仍存在不足。ImageAnalyzer则能将高分辨率图像传递给专用的视觉语言模型,以执行精确的数值读取与测量任务。
在实际解题中,物理学家也会持续评估自己的理论结果是否具有物理意义。这包括判断结果是否具有符合预期的物理属性或是否违反基本物理原理。AnswerReviewer被用于在解题过程中识别错误类型并定位错误表达,从而提升系统的自我校正能力。
为研究各类工具对最终得分的影响,研究团队测试了多种工具组合。结果显示,在大多数问题中(尤其是非简单题),移除AnswerReviewer会导致性能显著下降。而将图像处理任务交由ImageAnalyzer执行,则能有效提升整体得分。
此外,他们还为Physics Supernova接入了一个用于专业领域知识的问答工具——WolframAlpha。这是一款能够提供科学问题准确解答的计算型知识引擎,有助于提升系统在应对专业领域知识时的表现。
实验是物理研究的基础。研究团队指出,该项研究主要聚焦于IPhO 2025的理论题,未涉及基于仪器的实验题,部分原因在于实验仪器资源受限。
他们希望随着机器人技术的发展,未来基于LLM的AI Agent有望具备执行实验题的能力。相较于实体仪器操作,程序化实验能够模拟更复杂、更高级的实验过程。基于程序的实验考试有可能将评估重点从操控仪器的能力转向理解和运用物理的能力。
从长远来看,基于仪器的实验评估同样不可或缺。这类实验更贴近现实科研情境,能够更有效地衡量AI系统的机器人能力并评估其在极端或非预期条件下的表现。
除此之外,他们使用答案复查工具来验证推导过程。该工具完全基于自然语言运行。在数学领域自动化验证已经取得了显著进展但LLM可生成可验证的Lean格式证明。然而从自然语言问题出发推导物理公式并进行自动验证目前尚无可靠的技术路径。这仍是一个有待深入研究的方向。
研究团队表示未来值得探索的方向包括:构建能验证公式、物理表达与直观推理之间抽象转换的方法;建立更加严格、可验证的物理计算体系;借助具备更广泛、更深入物理知识的工具增强答案复查系统的能力。
总之研究团队建议未来关于AI物理解题系统的工作应继续拓展其在程序实验或仪器实验方面的能力同时增强其生成可验证、可信赖物理解答的能力。
展望未来这类系统有望进一步发展成为能够嵌入现实世界并执行复杂物理任务的高级智能体
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441399.html