尽管GPT5已经发布,但相较于GPT3.5、sora等前代产品,它并未引发如同预期般的震撼。乐观地看,OpenAI似乎放下了期货王的包袱,转而专注于大模型的落地与应用。正因如此,在发布会上,OpenAI特意强调了GPT-5在编程领域的实力,毕竟今年AI Coding无疑是最接地气的AI方向。众多AI IDE工具也迅速接入了GPT5,这一速度可谓前所未见。
然而,有媒体披露OpenAI在编程能力测试中可能存在“作弊”行为。具体来说,在SWE‑Bench Verified这项编程测试里,OpenAI并未完成全部500道题目,仅测试了477个。而claude、谷歌等模型在测试时则是跑满了全部题目。
此外,更引人注目的是,SWE‑Bench Verified实际上是OpenAI的一个“精选版”。因为原始的SWE‑Bench包含2294个软件工程问题,OpenAI认为这些题目中有些过于困难或不稳定,无法公平评估模型的编程能力,于是自行选择了500道题进行评测。结果更离谱的是,这“自选子集”又被砍掉一部分,只剩下477道题用于评测。
为了了解SWE‑Bench Verified的具体内容和测试范围,我们特地从OpenAI官网下载了题目、注释和评分标准,进行了实际演练。
我们在OpenAI官网提供的渠道下载了SWE‑Bench Verified的题目、注释和评分标准。
SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据,旨在衡量代码修复与理解能力。该数据集包含500个经过验证的测试样本,每个样本均包含代码仓库信息、问题描述、修复补丁、测试补丁以及难度标签等关键信息。
题目难度主要依据“完成时间”进行区分,例如15分钟内完成的任务被视为简单,而耗时超过4小时的任务则被视为困难。目前SWE‑Bench Verified中有38.8%的任务可在15分钟内完成,52.2%需要15分钟至1小时,8.4%的任务耗时在1至4小时之间,仅有0.6%的任务超过4小时。
测试中的样本来源覆盖了多个知名开源项目,包括django/django、sympy/sympy等。每个项目都会测试大模型在代码方面的各种能力。
我们让GPT5挑选了10个有代表性的项目,涉及大模型的多种能力。
例如Django/Django - Web框架之王
GitHub: https://github.com/django/django
问题: 优化 .delete() 方法,仅使用必需字段
测试重点: 数据库查询优化与性能测试
意义: Django是最流行的Python Web框架,这个问题涉及ORM性能优化,测试数据库操作效率
...(省略其他项目介绍)
至于OpenAI为什么要删除部分测试题而不是使用完整版,答案可能在于排名。在SWE‑Bench Verified的完整测试中(即500道题目),GPT5并未超越claude 4 Opus。
然而,反转又来了。上述测试是基于bash only(即完全依赖大模型本身的能力)。在现实情况下,用户通常会使用AI IDE来配合大模型使用。这时问题也随之而来:AI IDE提供的模型中,“最好”的claude 4 opus价格昂贵且tokens容易用完。换句话说,目前GPT5可能是最具性价比、可用性最强的编程模型?
当然,评分只能代表模型性能的一部分。我们还得具体上手试试。
我们在Codebuddy的环境下用GPT5制作了一个SWE‑Bench Verified数据库查询器(已提供OpenAI官网下载的注释、评分标准及基于huggingface的数据库)。
prompts:制作一款SWE‑Bench Verified数据库查询器...
GPT5生成过程比较顺利,没有出现不可逆的bug。第一版本只显示了11个项目,一轮交流后也补全了所有项目。
GPT5制作的版本预览:http://4d916460ea034a9...(省略部分URL)
...(省略部分实测内容)
本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439647.html