当前位置：首页 > 科技资讯 > 正文

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型

AI编程大赛，全球顶尖模型迎挑战，SWE-Bench Pro震撼登场！

一场关于AI编程能力的大考拉开帷幕，SWE-Bench Pro横空出世，汇集了平均超100行代码的难题。然而，即便是最强大的LLM（大型语言模型）也纷纷败下阵来，GPT-5仅获得23.3%的高分。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第1张

最新基准测试直接挑战了全球顶尖模型。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第2张

它就是SWE-Bench Pro，专为评估AI编程智能体而设计的新一代基准测试，直面真实企业级工程任务。

相较于前代SWE-Bench，Pro版本带来了三大突破：

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第3张

这一版堪称编码中的「最后人类考试」。在实际测试中，顶尖模型几乎溃败。

GPT-5虽拿下第一，但成绩仅为23.3%，Claude Opus 4.1以22.7%紧随其后。

其他模型得分均低于15%。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第4张

这意味着，在更贴近真实世界的编程任务中，LLM的长程编码能力仍有待提升。

最新技术论文详细公开了SWE-Bench Pro的设计细节。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第5张

编码界，需要一场硬核考试

过去，SWE-Bench等基准成为评估LLM在软件工程中的重要标准。

这些测试中，通常要求AI基于完整代码库和自然语言描述生成代码Patch。

就拿SWE-Bench Verified来说，顶尖LLM已实现超70%成功率。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第6张

但这也暴露了一个问题：未来6至12个月内，现有基准可能会「饱和」，无法有效衡量AI的进步。

由此，Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」，直击现有基准的痛点。

当前，已有的编码基准测试存在两大缺陷。

一方面，数据污染风险高。很多基准基于开源GitHub仓库构建，但这些仓库很容易被LLM训练数据「爬虫」。

由此，AI在测试时存在「作弊」的可能。

另一方面，现有基准的任务过于简单，达不到「工业级别」。

还以SWE-Bench Verified为例，500道题中，有161道只需改1-2行代码。

AI编程新挑战：SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro AI编程基准测试编码挑战第7张

...

本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441730.html