当前位置：首页 > 科技资讯 > 正文

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？

主机测评网
科技资讯
2026-04-22
499

尽管GPT5已经发布，但相较于GPT3.5、sora等前代产品，它并未引发如同预期般的震撼。乐观地看，OpenAI似乎放下了期货王的包袱，转而专注于大模型的落地与应用。正因如此，在发布会上，OpenAI特意强调了GPT-5在编程领域的实力，毕竟今年AI Coding无疑是最接地气的AI方向。众多AI IDE工具也迅速接入了GPT5，这一速度可谓前所未见。

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第1张

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第2张

然而，有媒体披露OpenAI在编程能力测试中可能存在“作弊”行为。具体来说，在SWE‑Bench Verified这项编程测试里，OpenAI并未完成全部500道题目，仅测试了477个。而claude、谷歌等模型在测试时则是跑满了全部题目。

此外，更引人注目的是，SWE‑Bench Verified实际上是OpenAI的一个“精选版”。因为原始的SWE‑Bench包含2294个软件工程问题，OpenAI认为这些题目中有些过于困难或不稳定，无法公平评估模型的编程能力，于是自行选择了500道题进行评测。结果更离谱的是，这“自选子集”又被砍掉一部分，只剩下477道题用于评测。

为了了解SWE‑Bench Verified的具体内容和测试范围，我们特地从OpenAI官网下载了题目、注释和评分标准，进行了实际演练。

我们在OpenAI官网提供的渠道下载了SWE‑Bench Verified的题目、注释和评分标准。

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第3张

SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据，旨在衡量代码修复与理解能力。该数据集包含500个经过验证的测试样本，每个样本均包含代码仓库信息、问题描述、修复补丁、测试补丁以及难度标签等关键信息。

题目难度主要依据“完成时间”进行区分，例如15分钟内完成的任务被视为简单，而耗时超过4小时的任务则被视为困难。目前SWE‑Bench Verified中有38.8%的任务可在15分钟内完成，52.2%需要15分钟至1小时，8.4%的任务耗时在1至4小时之间，仅有0.6%的任务超过4小时。

测试中的样本来源覆盖了多个知名开源项目，包括django/django、sympy/sympy等。每个项目都会测试大模型在代码方面的各种能力。

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第4张

我们让GPT5挑选了10个有代表性的项目，涉及大模型的多种能力。

例如Django/Django - Web框架之王

GitHub: https://github.com/django/django

问题: 优化 .delete() 方法，仅使用必需字段

测试重点: 数据库查询优化与性能测试

意义: Django是最流行的Python Web框架，这个问题涉及ORM性能优化，测试数据库操作效率

...（省略其他项目介绍）

至于OpenAI为什么要删除部分测试题而不是使用完整版，答案可能在于排名。在SWE‑Bench Verified的完整测试中（即500道题目），GPT5并未超越claude 4 Opus。

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第5张

然而，反转又来了。上述测试是基于bash only（即完全依赖大模型本身的能力）。在现实情况下，用户通常会使用AI IDE来配合大模型使用。这时问题也随之而来：AI IDE提供的模型中，“最好”的claude 4 opus价格昂贵且tokens容易用完。换句话说，目前GPT5可能是最具性价比、可用性最强的编程模型？

GPT5编程能力受质疑：与Claude等模型比拼，表现如何？ GPT5 编程能力 SWE‑Bench Verified Claude 第6张