当前位置：首页 > 科技资讯 > 正文

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑

FormulaOne基准测试挑战全球大模型：难度层层递进，GPT-5进阶题正确率仅4%，最深层全军覆没。该测试以图上MSO逻辑与动态规划生成问题，贴近现实优化，旨在衡量超越竞赛编程的算法推理深度。

奥特曼在GPT-5发布会上曾预言：“未来，每个人口袋里都将携带一位博士级的AI顾问。”

然而，随着GPT-5的发布与全球实测热潮，API使用量激增，一些讨论开始聚焦于“还我GPT-4”的能力质疑。

奥特曼强调的重点是，GPT-5具备“博士级”推理能力。但这一说法真的靠谱吗？

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第1张

FormulaOne测试基准，让全球顶级模型原形毕露。该测试分三关，难度逐级提升。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第2张

论文地址:https://arxiv.org/pdf/2507.13337

结果令人唏嘘：基础题尚能支撑，但进阶题仅GPT-5勉强得分4%。至于最深层问题，所有模型全军覆没，直接交白卷。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第3张

FormulaOne自称为“超越竞赛编程的算法推理深度测量”。由AAI公司推出，官网：doubleai.com。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第4张

AAI由Mobileye联合创始人、希伯来大学教授Amnon Shashua创立，长期低调。Shashua于2020年获丹·大卫奖人工智能领域奖，并于2022年被汽车名人堂评为移动创新者。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第5张

AI需硬核挑战

现在的AI距离真正的专家水平有多远？真正的专家能解决硬核难题，推动科学边界。

因此，需给AI增加真正的挑战。现有基准测试无法全面展示AI理解深度。

尽管OpenAI在CodeForces上获得高分，或在国际信息学奥林匹克竞赛中夺金，但这些成绩掩盖了现实：竞赛技能并不涵盖解决大规模现实世界研究问题的全部推理能力。

例如，优化全球供应链、管理大规模电网等任务难度远超竞赛编程。

FormulaOne包含基于图的动态编程问题，涵盖从适中到研究级别的难度。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第6张

FormulaOne处于图论、逻辑和算法交叉点，完全在前沿模型训练范围内。

这些问题极具挑战性，需一系列推理步骤，涉及拓扑和几何洞察、数学知识等。

FormulaOne具有三个关键特性：商业价值、适合构建强化学习环境、与理论计算机科学前沿密切相关。

“最深层”级别问题需深入推理能力，而现有模型无法做到。

“最深层”层级问题涉及多个不确定步骤，无简单捷径可循。

设计一个正确且高效的动态规划程序非常困难。关键在于状态设计：既需足够丰富又需简洁。

模型易急切决策，但无效性延迟显现。随着不确定性增加，情况更明显。

FormulaOne基准测试：大模型纷纷折戟，AI推理能力受质疑 FormulaOne 大模型 AI推理算法深度第7张

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441371.html