当前位置:首页 > 科技资讯 > 正文

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑

FormulaOne基准测试挑战全球大模型:难度层层递进,GPT-5进阶题正确率仅4%,最深层全军覆没。该测试以图上MSO逻辑与动态规划生成问题,贴近现实优化,旨在衡量超越竞赛编程的算法推理深度。

奥特曼在GPT-5发布会上曾预言:“未来,每个人口袋里都将携带一位博士级的AI顾问。”

然而,随着GPT-5的发布与全球实测热潮,API使用量激增,一些讨论开始聚焦于“还我GPT-4”的能力质疑。

奥特曼强调的重点是,GPT-5具备“博士级”推理能力。但这一说法真的靠谱吗?

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第1张

FormulaOne测试基准,让全球顶级模型原形毕露。该测试分三关,难度逐级提升。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第2张

论文地址:https://arxiv.org/pdf/2507.13337

结果令人唏嘘:基础题尚能支撑,但进阶题仅GPT-5勉强得分4%。至于最深层问题,所有模型全军覆没,直接交白卷。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第3张

FormulaOne自称为“超越竞赛编程的算法推理深度测量”。由AAI公司推出,官网:doubleai.com。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第4张

AAI由Mobileye联合创始人、希伯来大学教授Amnon Shashua创立,长期低调。Shashua于2020年获丹·大卫奖人工智能领域奖,并于2022年被汽车名人堂评为移动创新者。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第5张

AI需硬核挑战

现在的AI距离真正的专家水平有多远?真正的专家能解决硬核难题,推动科学边界。

因此,需给AI增加真正的挑战。现有基准测试无法全面展示AI理解深度。

尽管OpenAI在CodeForces上获得高分,或在国际信息学奥林匹克竞赛中夺金,但这些成绩掩盖了现实:竞赛技能并不涵盖解决大规模现实世界研究问题的全部推理能力。

例如,优化全球供应链、管理大规模电网等任务难度远超竞赛编程。

FormulaOne包含基于图的动态编程问题,涵盖从适中到研究级别的难度。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第6张

FormulaOne处于图论、逻辑和算法交叉点,完全在前沿模型训练范围内。

这些问题极具挑战性,需一系列推理步骤,涉及拓扑和几何洞察、数学知识等。

FormulaOne具有三个关键特性:商业价值、适合构建强化学习环境、与理论计算机科学前沿密切相关。

“最深层”级别问题难解

“最深层”级别问题需深入推理能力,而现有模型无法做到。

“最深层”层级问题涉及多个不确定步骤,无简单捷径可循。

设计一个正确且高效的动态规划程序非常困难。关键在于状态设计:既需足够丰富又需简洁。

模型易急切决策,但无效性延迟显现。随着不确定性增加,情况更明显。

FormulaOne基准测试:大模型纷纷折戟,AI推理能力受质疑 FormulaOne 大模型 AI推理 算法深度 第7张