当前位置:首页 > 科技资讯 > 正文

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型

AI编程大赛,全球顶尖模型迎挑战,SWE-Bench Pro震撼登场!

一场关于AI编程能力的大考拉开帷幕,SWE-Bench Pro横空出世,汇集了平均超100行代码的难题。然而,即便是最强大的LLM(大型语言模型)也纷纷败下阵来,GPT-5仅获得23.3%的高分。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第1张

最新基准测试直接挑战了全球顶尖模型。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第2张

它就是SWE-Bench Pro,专为评估AI编程智能体而设计的新一代基准测试,直面真实企业级工程任务。

相较于前代SWE-Bench,Pro版本带来了三大突破:

  • 任务难度全面提升
  • 抗数据污染能力更强
  • 无限逼近真实代码库

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第3张

这一版堪称编码中的「最后人类考试」。在实际测试中,顶尖模型几乎溃败。

GPT-5虽拿下第一,但成绩仅为23.3%,Claude Opus 4.1以22.7%紧随其后。

其他模型得分均低于15%。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第4张

这意味着,在更贴近真实世界的编程任务中,LLM的长程编码能力仍有待提升。

最新技术论文详细公开了SWE-Bench Pro的设计细节。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第5张

论文地址:https://static.scale.com/uploads/...

编码界,需要一场硬核考试

过去,SWE-Bench等基准成为评估LLM在软件工程中的重要标准。

这些测试中,通常要求AI基于完整代码库和自然语言描述生成代码Patch。

就拿SWE-Bench Verified来说,顶尖LLM已实现超70%成功率。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第6张

但这也暴露了一个问题:未来6至12个月内,现有基准可能会「饱和」,无法有效衡量AI的进步。

由此,Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」,直击现有基准的痛点。

数据污染,与现实脱节

当前,已有的编码基准测试存在两大缺陷。

一方面,数据污染风险高。很多基准基于开源GitHub仓库构建,但这些仓库很容易被LLM训练数据「爬虫」。

由此,AI在测试时存在「作弊」的可能。

另一方面,现有基准的任务过于简单,达不到「工业级别」。

还以SWE-Bench Verified为例,500道题中,有161道只需改1-2行代码。

AI编程新挑战:SWE-Bench Pro考验全球顶尖模型 SWE-Bench Pro  AI编程 基准测试 编码挑战 第7张

...