当前位置：首页 > 科技资讯 > 正文

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼

主机测评网
科技资讯
2026-04-23
943

在OpenAI的发布会上，奥特曼宣布了GPT-5的辉煌成就，称其在代码能力方面全球领先。然而，发布会上的一个小插曲引起了广泛关注——一个数学错误：

52.8＞69.1=30.8？

这张被OpenAI天才们制作的表格意外地成为了全球热议的焦点（如上）。

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第1张

尽管这张表格最初在OpenAI的官方博客中是准确的，但在全球直播中出现了这样的错误。

抛开这个乌龙事件，更值得关注的是GPT-5在SWE-bench Verified基准上取得的74.9%的通过率。

这一成绩略胜于Anthropic的Claude Opus 4.1的74.5%。

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第2张

这使得GPT-5在软件工程任务基准上处于领先地位。

然而，这个分数似乎有些蹊跷。

OpenAI 并未运行SWE-bench Verified的全部500道测试任务，而是略去了其中无法运行的23个任务，仅基于477个任务计算得分。

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第3张

Anthropic在其博客中也提到了这个问题。

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第4张

SWE-bench Verified总共有500道题，GPT-5只做了477道，那剩下的23道题，它直接跳过了！

相比之下，Claude则完成了所有500道题。

这样一来，性质就变了。

当然，OpenAI是承认这一点的。

他们从GPT-4.1开始就在「备注」中说明了：由于OpenAI的基础设施无法运行这23道题目，因此未包含在内。（好奇啊，是什么样的题目让OpenAI的天才们望而却步）

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第5张

如果将这23道无法运行的题目按零分计算，GPT-4.1的得分将从54.6%降至52.1%。

由此推测，GPT-5的74.9%，若也将那23道题视作全错，其实际全500题通过率约为71.4%（74.9%×477/500），这明显低于Claude Opus 4.1基于全部题目取得的74.5%

必须指出，那被略去的23个任务并非对GPT-5「无关紧要」。

相反，它们大多是Verified集合中最困难的一批问题。

据第三方分析，在Verified数据集的「耗时>4小时」级别的任务中，绝大多数模型都无法解决任何一道。

OpenAI GPT-5 vs. Claude 4.1：AI编程能力大比拼 4.1 SWE-bench Verified 评测分数第6张

这些极端困难任务对模型的综合能力构成了严峻考验。

如果GPT-5无法运行这些任务，那么从全面能力上说，它可能尚未真正超越Claude 4.1。

评测分数的可比性和报告方法的透明性成为了主要争议点。

SWE-bench：AI界的「程序员高考」

高防服务器阿里云服务器云服务器

本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439808.html

上一篇
全球资本重塑：国家安全引领资产价值重估

下一篇
Meta AI部门重组：超级智能实验室拆分，未来走向备受关注

相关文章

元宇宙梦碎，Meta转向AI，扎克伯格的赌注能翻盘吗？

人形机器人：2026年，从“题材炒作”到“订单—业绩弹性”

抖音小游戏：内容驱动社交，生态赋能新纪元

三星迎战iPhone Fold：2026年秋季推出“阔折叠”手机

小米17 Ultra面临涨价挑战，卢伟冰透露新配色

国产GPU领跑者壁仞科技港股上市：高端GPU定价新纪元

AI面试：科技与人性的博弈

长光辰芯冲刺港股IPO：学霸夫妇联手，全球工业CIS市场激战正酣