当前位置:首页 > 科技资讯 > 正文

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼

在OpenAI的发布会上,奥特曼宣布了GPT-5的辉煌成就,称其在代码能力方面全球领先。然而,发布会上的一个小插曲引起了广泛关注——一个数学错误:

52.8>69.1=30.8?

这张被OpenAI天才们制作的表格意外地成为了全球热议的焦点(如上)。

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第1张

尽管这张表格最初在OpenAI的官方博客中是准确的,但在全球直播中出现了这样的错误。

抛开这个乌龙事件,更值得关注的是GPT-5在SWE-bench Verified基准上取得的74.9%的通过率。

这一成绩略胜于Anthropic的Claude Opus 4.1的74.5%

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第2张

这使得GPT-5在软件工程任务基准上处于领先地位。

然而,这个分数似乎有些蹊跷。

OpenAI 并未运行SWE-bench Verified的全部500道测试任务,而是略去了其中无法运行的23个任务,仅基于477个任务计算得分

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第3张

Anthropic在其博客中也提到了这个问题。

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第4张

SWE-bench Verified总共有500道题,GPT-5只做了477道,那剩下的23道题,它直接跳过了!

相比之下,Claude则完成了所有500道题。

这样一来,性质就变了。

当然,OpenAI是承认这一点的。

他们从GPT-4.1开始就在「备注」中说明了:由于OpenAI的基础设施无法运行这23道题目,因此未包含在内。(好奇啊,是什么样的题目让OpenAI的天才们望而却步)

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第5张

如果将这23道无法运行的题目按零分计算,GPT-4.1的得分将从54.6%降至52.1%

由此推测,GPT-5的74.9%,若也将那23道题视作全错,其实际全500题通过率约为71.4%(74.9%×477/500),这明显低于Claude Opus 4.1基于全部题目取得的74.5%

必须指出,那被略去的23个任务并非对GPT-5「无关紧要」。

相反,它们大多是Verified集合中最困难的一批问题。

据第三方分析,在Verified数据集的「耗时>4小时」级别的任务中,绝大多数模型都无法解决任何一道。

OpenAI GPT-5 vs. Claude 4.1:AI编程能力大比拼 4.1 SWE-bench Verified 评测分数 第6张

这些极端困难任务对模型的综合能力构成了严峻考验。

如果GPT-5无法运行这些任务,那么从全面能力上说,它可能尚未真正超越Claude 4.1。

评测分数的可比性和报告方法的透明性成为了主要争议点。

SWE-bench:AI界的「程序员高考」