当前位置:首页 > 科技资讯 > 正文

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景

Scale AI推出的新软件工程基准SWE-BENCH PRO带来了测试领域的重大变革!

表面上,御三家模型在解决率上集体失利,均未超过25%

GPT-5Claude Opus 4.1Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“领衔”垫底。

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第1张

然而,深入数据背后,我们发现了一场“阴谋”。

前OpenAI研究员Neil Chowdhury指出,若仅看已提交任务,GPT-5的准确率高达63%,几乎比Claude Opus 4.1的31%高一倍!

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第2张

(这难道不算GPT又赢了吗?)

换言之,GPT-5在其擅长的领域依旧稳健,与老基准SWE-Bench-Verified的74.9%差距不大,而Claude及其他模型则明显拖后腿。

那么,究竟是怎样的基准测试让这些顶级模型如此狼狈?

SWE-BENCH PRO揭秘

结论先行:不是模型变弱了,而是题目更难了。

与平均正确率高达70%的SWE-Bench-Verified相比,SWE-BENCH PRO的难度提升绝非一星半点。

一方面,作为OpenAI 2024年8月发布的测试集,SWE-Bench-Verified中的代码库已被广泛用于大语言模型的预训练,存在数据污染风险。

另一方面,SWE-Bench-Verified包含大量琐碎问题,例如500个问题中有161个仅需一两行代码修改。

这与工业软件工程中常见的多文件、数百行修改的场景相去甚远,难以真实反映实际开发挑战。

因此,SWE-BENCH PRO主打全新题目,确保模型在训练阶段未接触测试内容,更真实地考验模型能力。

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第3张

多元化代码库:涵盖1865个商业应用、B2B服务和开发者工具

具体来说,SWE-BENCH PRO将代码库构建为以下三个子集:

公共集:来自采用copy-left许可证的11个公共代码库的731个问题。

商业集:来自276个初创公司代码库的问题。

保留集:来自采用copy-left许可证的12个公共代码库的858个问题。

(注:公共集将在HuggingFace上发布,商业集和保留集保持私有。商业集测试结果公开,保留集用于验证模型是否过拟合。每个问题由任务描述、相关测试集和可运行环境构成。)

这些代码库有效解决了SWE-Bench-Verified的数据污染问题,并确保了任务的复杂性。

研究团队排除了琐碎的编辑任务,仅保留需要大量多文件修改的问题。

此外,这些代码库覆盖多个活跃领域,包括消费者应用、B2B服务和开发者工具平台。

“Human in the loop”的测试环节

为了评估模型在获得充分细节后能否实现给定修复或补丁,研究团队对SWE-BENCH PRO中的问题进行了人工增强。

首先,研究团队提供待解决问题的问题陈述,并在必要时补充上下文信息。

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第4张

其次,针对潜在歧义问题,研究团队列出了每个问题的需求并指定了相应的类和函数。

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第5张

最后,每个任务都在容器化的特定语言环境中进行评估。

“Fail to pass”与“Pass to pass”测试

“Fail to pass”测试验证问题是否已解决,“Pass to pass”测试确保现有功能保持完整。

“Fail to pass”测试经过人工筛选,去除与任务不相关或过于宽泛的测试。

“Pass to pass”测试则运行三次以确保结果稳定。

“中等水平”的测试结果

SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第6张

“苦涩”的实验结果与分析

  • “编程语言的难度”与“代码库及模型种类”
  • “OPUS 4.1的主要失败模式”与“GPT-5的失败模式”等
  • “不同模型的失败原因”各不相同
  • SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第7张

“谁会成为第一个突破30%的大模型?”

  • SWE-BENCH PRO挑战顶级模型:数据污染与复杂场景 PRO 模型测试 数据污染 复杂场景 第8张