FormulaOne基准测试挑战全球大模型:难度层层递进,GPT-5进阶题正确率仅4%,最深层全军覆没。该测试以图上MSO逻辑与动态规划生成问题,贴近现实优化,旨在衡量超越竞赛编程的算法推理深度。
奥特曼在GPT-5发布会上曾预言:“未来,每个人口袋里都将携带一位博士级的AI顾问。”
然而,随着GPT-5的发布与全球实测热潮,API使用量激增,一些讨论开始聚焦于“还我GPT-4”的能力质疑。
奥特曼强调的重点是,GPT-5具备“博士级”推理能力。但这一说法真的靠谱吗?
FormulaOne测试基准,让全球顶级模型原形毕露。该测试分三关,难度逐级提升。
论文地址:https://arxiv.org/pdf/2507.13337
结果令人唏嘘:基础题尚能支撑,但进阶题仅GPT-5勉强得分4%。至于最深层问题,所有模型全军覆没,直接交白卷。
FormulaOne自称为“超越竞赛编程的算法推理深度测量”。由AAI公司推出,官网:doubleai.com。
AAI由Mobileye联合创始人、希伯来大学教授Amnon Shashua创立,长期低调。Shashua于2020年获丹·大卫奖人工智能领域奖,并于2022年被汽车名人堂评为移动创新者。
现在的AI距离真正的专家水平有多远?真正的专家能解决硬核难题,推动科学边界。
因此,需给AI增加真正的挑战。现有基准测试无法全面展示AI理解深度。
尽管OpenAI在CodeForces上获得高分,或在国际信息学奥林匹克竞赛中夺金,但这些成绩掩盖了现实:竞赛技能并不涵盖解决大规模现实世界研究问题的全部推理能力。
例如,优化全球供应链、管理大规模电网等任务难度远超竞赛编程。
FormulaOne包含基于图的动态编程问题,涵盖从适中到研究级别的难度。
FormulaOne处于图论、逻辑和算法交叉点,完全在前沿模型训练范围内。
这些问题极具挑战性,需一系列推理步骤,涉及拓扑和几何洞察、数学知识等。
FormulaOne具有三个关键特性:商业价值、适合构建强化学习环境、与理论计算机科学前沿密切相关。
“最深层”级别问题需深入推理能力,而现有模型无法做到。
“最深层”层级问题涉及多个不确定步骤,无简单捷径可循。
设计一个正确且高效的动态规划程序非常困难。关键在于状态设计:既需足够丰富又需简洁。
模型易急切决策,但无效性延迟显现。随着不确定性增加,情况更明显。
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441371.html