在全球编程竞赛中,顶尖大语言模型屡获金牌,它们是否真的所向披靡?最新推出的高难度编码基准SWE-Bench Pro横空出世,汇集了平均超过100行代码的复杂难题。出乎意料的是,性能最强的LLM纷纷表现不佳,GPT-5仅取得23.3%的得分。
一张图全面洞察全球大模型动态!新智元十周年重磅献礼,2025年ASI前沿趋势报告37页首次发布。
继在IMO 2025夺冠后,谷歌和OpenAI的模型再次在ICPC竞赛中斩获金牌。
ICPC被广泛认为是全球最具挑战性的大学生编程赛事之一。
OpenAI和谷歌不仅完整解决了全部12道题目,还在人类参赛者中排名第一,这是否意味着AI编程已经无可阻挡?
最新的一项基准测试,直接对全球顶尖模型提出了严峻挑战。
这就是SWE-Bench Pro,专为评估AI编程智能体而设计的新一代基准测试,直面真实的企业级工程任务。
与前代SWE-Bench相比,Pro版本带来了三大重要升级:
这一版本堪称编码领域的“终极人类考试”。在实际测试(公开集)中,顶尖模型几乎全面溃败。
GPT-5虽然夺得第一,但得分仅为23.3%,Claude Opus 4.1以22.7%的得分紧随其后。
其他模型更是无一表现突出,得分全部低于15%。
这表明,在更贴近真实世界的编程任务中,LLM的长程编码能力仍然是明显短板。
最新发布的21页技术论文,详细公开了SWE-Bench Pro的设计细节。
论文地址:https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf
过去,SWE-Bench等基准已成为评估LLM在软件工程中能力的重要标准。
这些测试通常要求AI基于完整代码库和自然语言描述,生成代码补丁。
以SWE-Bench Verified为例,顶尖LLM已实现超过70%的成功率,这听起来确实令人印象深刻。
但这也揭示了一个关键问题:
未来6至12个月内,现有基准可能会达到“饱和”,无法有效衡量AI的进一步进步。
为此,Scale AI正式推出了SWE-Bench Pro。
它提供了一个更真实、更具挑战性的“考场”,直击现有基准的缺陷痛点。
当前,现有的编码基准测试存在两大主要缺陷。
一方面,数据污染风险较高。许多基准基于开源GitHub仓库构建,但这些仓库,尤其是MIT、Apache许可的项目,很容易被LLM训练数据“爬取”。
因此,AI在测试时可能存在“作弊”嫌疑,或许它早已见过类似难题。
另一方面,现有基准的任务过于简单,达不到“工业级别”要求。
再次以SWE-Bench Verified为例,500道题目中,竟有161道只需修改1-2行代码。
这在实验室环境中可行,但到了企业实际环境,往往涉及跨多个文件、数百行代码的复杂修改。
这样的基准根本无法反映AI在真实开发场景中的表现。
编码考试并非AI智能体的最终目的,但一个更硬核的基准,才能真实评估LLM是否符合工业级应用标准。
在SWE-Bench Pro设计中,共包含1865个经人工验证与增强的问题,细分为三类子集——公开集、商业集、保留集。
论文中,研究团队介绍了SWE-Bench Pro的三大贡献:
SWE-Bench Pro采用创新数据收集策略,有效避开了污染陷阱。
(1)仅采用强著佐权许可证(GPL)的代码库构建公开集(11个代码库)和保留集(12个代码库);
(2)从真实初创企业获取商业代码以构建商业集(18个代码库),从而捕捉企业级问题。
• 公开集:在HuggingFace公开发布731个实例,并在本文中报告相关统计数据和模型表现。这些实例源自采用著佐权(copyleft)许可证的公开代码库。
• 商业集:来自初创企业代码库的276个商业集问题。这是唯一包含初创企业专有代码库的集合,因法律限制无法公开。
• 保留集:保留了858个与公共集结构镜像但采用不同代码库的问题集。
为了确保任务复杂度,Scale AI排除了1-10行代码的“小修小补”任务,只保留需要多文件、实质性修改的问题。
参考解决方案平均涉及4.1个文件、107.4行代码,所有任务至少修改10行,超过100项任务需修改超过100行。
除了复杂度外,所选代码库都是活跃维护的,覆盖了消费级App、B2B服务和开发者工具平台等多个领域。
而且,每个代码库贡献了50-100个实例(上限100),避免了对单一库的过度依赖。
仅有高难度任务还不够,最后一步是确保它们是可解的。
为此,SWE-Bench Pro引入了一个以人为中心的增强验证流程,分为三阶段人机协同流程。
一方面,它能澄清模糊信息,补充缺失的上下文;另一方面,通过约束解决方案空间,保持灵活性的同时避免假阴性结果。
不同顶尖模型在SWE-Bench Pro上的表现如下表1所示。
以Pass@1作为问题解决率指标,GPT-5与Claude Opus 4.1分别以23.3%和22.7%的解决率领先。
早期代际模型,如DeepSeek Qwen-3 32B、GPT-4o表现明显落后,分别仅为3.4%和3.9%。
此外,公开集和商业集之间存在显著的性能差距。
最佳模型在商业集的得分均低于20%,从侧面印证了企业级代码库处理的挑战性。
总的来说,LLM在公开集的通过率≤23.3%,在商业集≤17.8%,远低于SWE-Bench Verified的70%以上。
这背后的原因究竟是什么?
从编程语言维度来看,AI性能分化明显。
在Go和Python任务中,大多数模型解决率较高,有些甚至超过30%。
相较之下,JavaScript(JS)与TypeScript(TS)则表现波动较大,根据模型不同,解决率从0%到超过30%不等。
不仅如此,代码仓库维度多样,有些仓库所有模型解决率都低于10%。
有些仓库则能达到50%。
仓库的复杂度、文档质量或问题类型等,也成为LLM在编码任务中影响性能的因素。
可以看到,Claude Opus 4.1、GPT-5在多数仓库和编程语言中都能保持稳定高性能。
接下来,研究人员让GPT-5作为“法官”,对不同模型的故障进行分析。
具体步骤是,先手动构建常见故障分类桶,然后筛选未解决实例,收集最后20轮交互轨迹,向GPT-5提供提示,让其推理并分类故障。
结果显示,顶尖模型的失败原因覆盖了各种情况。
Claude Opus 4.1:卡在语义理解上,错误解决方案占比35.9%,语法错误24.2%,技术执行力强,但问题理解、算法准确性有待提升。
GPT-5:工具使用差异明显,但错误解决方案较少。
Claude Sonnet 4:上下文溢出(35.6%)和无限文件读取行为(17.0%)是主因,暴露了上下文管理和导航策略的局限。
Gemini 2.5:工具错误(38.8%)、语法错误(30.5%)和错误解决方案(18.0%),多维度挑战并存。
Qwen-3 32B:工具错误率最高(42.0%)。
总之,SWE-Bench Pro是一个全新抗污染、工业真实的基准,能够成为未来LLM编码能力的重要标尺。
Xiang Deng现任Scale AI研究工程师,专注于LLM的编程与智能体研发。
他曾获得俄亥俄州立大学的博士学位,以及中国科学技术大学计算机科学学士学位。
Jeff Da现任Scale AI研究科学家,专注于强化学习、智能体与训练后优化方向。
他曾在艾伦人工智能研究所和华盛顿大学,主要从事推理能力评估、多模态学习等方向的研究。
有趣的是,在首席AI官Alexandr Wang的评论区下方,所有人更关心的是MSL内幕消息。
Alexandr剧透,即将有更多新内容分享。
参考资料:
https://x.com/vbingliu/status/1969460781495566611
ScaleAI/SWE-bench_Pro · Datasets at Hugging Face
https://x.com/alexandr_wang/status/1969805196462358919
本文由主机测评网于2026-01-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114230.html