当前位置：首页 > 科技资讯 > 正文

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景

主机测评网
科技资讯
2026-04-30
331

Scale AI推出的新软件工程基准SWE-BENCH PRO带来了测试领域的重大变革！

表面上，御三家模型在解决率上集体失利，均未超过25%：

GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“领衔”垫底。

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第1张

然而，深入数据背后，我们发现了一场“阴谋”。

前OpenAI研究员Neil Chowdhury指出，若仅看已提交任务，GPT-5的准确率高达63%，几乎比Claude Opus 4.1的31%高一倍！

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第2张

（这难道不算GPT又赢了吗？）

换言之，GPT-5在其擅长的领域依旧稳健，与老基准SWE-Bench-Verified的74.9%差距不大，而Claude及其他模型则明显拖后腿。

那么，究竟是怎样的基准测试让这些顶级模型如此狼狈？

SWE-BENCH PRO揭秘

结论先行：不是模型变弱了，而是题目更难了。

与平均正确率高达70%的SWE-Bench-Verified相比，SWE-BENCH PRO的难度提升绝非一星半点。

一方面，作为OpenAI 2024年8月发布的测试集，SWE-Bench-Verified中的代码库已被广泛用于大语言模型的预训练，存在数据污染风险。

另一方面，SWE-Bench-Verified包含大量琐碎问题，例如500个问题中有161个仅需一两行代码修改。

这与工业软件工程中常见的多文件、数百行修改的场景相去甚远，难以真实反映实际开发挑战。

因此，SWE-BENCH PRO主打全新题目，确保模型在训练阶段未接触测试内容，更真实地考验模型能力。

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第3张

多元化代码库：涵盖1865个商业应用、B2B服务和开发者工具

具体来说，SWE-BENCH PRO将代码库构建为以下三个子集：

公共集：来自采用copy-left许可证的11个公共代码库的731个问题。

商业集：来自276个初创公司代码库的问题。

保留集：来自采用copy-left许可证的12个公共代码库的858个问题。

（注：公共集将在HuggingFace上发布，商业集和保留集保持私有。商业集测试结果公开，保留集用于验证模型是否过拟合。每个问题由任务描述、相关测试集和可运行环境构成。）

这些代码库有效解决了SWE-Bench-Verified的数据污染问题，并确保了任务的复杂性。

研究团队排除了琐碎的编辑任务，仅保留需要大量多文件修改的问题。

此外，这些代码库覆盖多个活跃领域，包括消费者应用、B2B服务和开发者工具平台。

“Human in the loop”的测试环节

为了评估模型在获得充分细节后能否实现给定修复或补丁，研究团队对SWE-BENCH PRO中的问题进行了人工增强。

首先，研究团队提供待解决问题的问题陈述，并在必要时补充上下文信息。

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第4张

其次，针对潜在歧义问题，研究团队列出了每个问题的需求并指定了相应的类和函数。

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第5张

最后，每个任务都在容器化的特定语言环境中进行评估。

“Fail to pass”与“Pass to pass”测试

“Fail to pass”测试验证问题是否已解决，“Pass to pass”测试确保现有功能保持完整。

“Fail to pass”测试经过人工筛选，去除与任务不相关或过于宽泛的测试。

“Pass to pass”测试则运行三次以确保结果稳定。

“中等水平”的测试结果

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景 PRO 模型测试数据污染复杂场景第6张

“苦涩”的实验结果与分析

“编程语言的难度”与“代码库及模型种类”

“OPUS 4.1的主要失败模式”与“GPT-5的失败模式”等

“不同模型的失败原因”各不相同

“谁会成为第一个突破30%的大模型？”

免费vps 服务器教程

本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441731.html

SWE-BENCH PRO挑战顶级模型：数据污染与复杂场景