在OpenAI的发布会上,奥特曼宣布了GPT-5的辉煌成就,称其在代码能力方面全球领先。然而,发布会上的一个小插曲引起了广泛关注——一个数学错误:
52.8>69.1=30.8?
这张被OpenAI天才们制作的表格意外地成为了全球热议的焦点(如上)。
尽管这张表格最初在OpenAI的官方博客中是准确的,但在全球直播中出现了这样的错误。
抛开这个乌龙事件,更值得关注的是GPT-5在SWE-bench Verified基准上取得的74.9%的通过率。
这一成绩略胜于Anthropic的Claude Opus 4.1的74.5%。
这使得GPT-5在软件工程任务基准上处于领先地位。
然而,这个分数似乎有些蹊跷。
OpenAI 并未运行SWE-bench Verified的全部500道测试任务,而是略去了其中无法运行的23个任务,仅基于477个任务计算得分。
Anthropic在其博客中也提到了这个问题。
SWE-bench Verified总共有500道题,GPT-5只做了477道,那剩下的23道题,它直接跳过了!
相比之下,Claude则完成了所有500道题。
这样一来,性质就变了。
当然,OpenAI是承认这一点的。
他们从GPT-4.1开始就在「备注」中说明了:由于OpenAI的基础设施无法运行这23道题目,因此未包含在内。(好奇啊,是什么样的题目让OpenAI的天才们望而却步)
如果将这23道无法运行的题目按零分计算,GPT-4.1的得分将从54.6%降至52.1%。
由此推测,GPT-5的74.9%,若也将那23道题视作全错,其实际全500题通过率约为71.4%(74.9%×477/500),这明显低于Claude Opus 4.1基于全部题目取得的74.5%
必须指出,那被略去的23个任务并非对GPT-5「无关紧要」。
相反,它们大多是Verified集合中最困难的一批问题。
据第三方分析,在Verified数据集的「耗时>4小时」级别的任务中,绝大多数模型都无法解决任何一道。
这些极端困难任务对模型的综合能力构成了严峻考验。
如果GPT-5无法运行这些任务,那么从全面能力上说,它可能尚未真正超越Claude 4.1。
评测分数的可比性和报告方法的透明性成为了主要争议点。
本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439808.html