Scale AI推出的新软件工程基准SWE-BENCH PRO带来了测试领域的重大变革!
表面上,御三家模型在解决率上集体失利,均未超过25%:
GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“领衔”垫底。
然而,深入数据背后,我们发现了一场“阴谋”。
前OpenAI研究员Neil Chowdhury指出,若仅看已提交任务,GPT-5的准确率高达63%,几乎比Claude Opus 4.1的31%高一倍!
(这难道不算GPT又赢了吗?)
换言之,GPT-5在其擅长的领域依旧稳健,与老基准SWE-Bench-Verified的74.9%差距不大,而Claude及其他模型则明显拖后腿。
那么,究竟是怎样的基准测试让这些顶级模型如此狼狈?
结论先行:不是模型变弱了,而是题目更难了。
与平均正确率高达70%的SWE-Bench-Verified相比,SWE-BENCH PRO的难度提升绝非一星半点。
一方面,作为OpenAI 2024年8月发布的测试集,SWE-Bench-Verified中的代码库已被广泛用于大语言模型的预训练,存在数据污染风险。
另一方面,SWE-Bench-Verified包含大量琐碎问题,例如500个问题中有161个仅需一两行代码修改。
这与工业软件工程中常见的多文件、数百行修改的场景相去甚远,难以真实反映实际开发挑战。
因此,SWE-BENCH PRO主打全新题目,确保模型在训练阶段未接触测试内容,更真实地考验模型能力。
具体来说,SWE-BENCH PRO将代码库构建为以下三个子集:
公共集:来自采用copy-left许可证的11个公共代码库的731个问题。
商业集:来自276个初创公司代码库的问题。
保留集:来自采用copy-left许可证的12个公共代码库的858个问题。
(注:公共集将在HuggingFace上发布,商业集和保留集保持私有。商业集测试结果公开,保留集用于验证模型是否过拟合。每个问题由任务描述、相关测试集和可运行环境构成。)
这些代码库有效解决了SWE-Bench-Verified的数据污染问题,并确保了任务的复杂性。
研究团队排除了琐碎的编辑任务,仅保留需要大量多文件修改的问题。
此外,这些代码库覆盖多个活跃领域,包括消费者应用、B2B服务和开发者工具平台。
为了评估模型在获得充分细节后能否实现给定修复或补丁,研究团队对SWE-BENCH PRO中的问题进行了人工增强。
首先,研究团队提供待解决问题的问题陈述,并在必要时补充上下文信息。
其次,针对潜在歧义问题,研究团队列出了每个问题的需求并指定了相应的类和函数。
最后,每个任务都在容器化的特定语言环境中进行评估。
“Fail to pass”测试验证问题是否已解决,“Pass to pass”测试确保现有功能保持完整。
“Fail to pass”测试经过人工筛选,去除与任务不相关或过于宽泛的测试。
“Pass to pass”测试则运行三次以确保结果稳定。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441731.html