AI编程大赛,全球顶尖模型迎挑战,SWE-Bench Pro震撼登场!
一场关于AI编程能力的大考拉开帷幕,SWE-Bench Pro横空出世,汇集了平均超100行代码的难题。然而,即便是最强大的LLM(大型语言模型)也纷纷败下阵来,GPT-5仅获得23.3%的高分。
最新基准测试直接挑战了全球顶尖模型。
它就是SWE-Bench Pro,专为评估AI编程智能体而设计的新一代基准测试,直面真实企业级工程任务。
相较于前代SWE-Bench,Pro版本带来了三大突破:
这一版堪称编码中的「最后人类考试」。在实际测试中,顶尖模型几乎溃败。
GPT-5虽拿下第一,但成绩仅为23.3%,Claude Opus 4.1以22.7%紧随其后。
其他模型得分均低于15%。
这意味着,在更贴近真实世界的编程任务中,LLM的长程编码能力仍有待提升。
最新技术论文详细公开了SWE-Bench Pro的设计细节。
论文地址:https://static.scale.com/uploads/...
过去,SWE-Bench等基准成为评估LLM在软件工程中的重要标准。
这些测试中,通常要求AI基于完整代码库和自然语言描述生成代码Patch。
就拿SWE-Bench Verified来说,顶尖LLM已实现超70%成功率。
但这也暴露了一个问题:未来6至12个月内,现有基准可能会「饱和」,无法有效衡量AI的进步。
由此,Scale AI正式发布了SWE-Bench Pro。
它提供了一个更真实、更具挑战的「考场」,直击现有基准的痛点。
当前,已有的编码基准测试存在两大缺陷。
一方面,数据污染风险高。很多基准基于开源GitHub仓库构建,但这些仓库很容易被LLM训练数据「爬虫」。
由此,AI在测试时存在「作弊」的可能。
另一方面,现有基准的任务过于简单,达不到「工业级别」。
还以SWE-Bench Verified为例,500道题中,有161道只需改1-2行代码。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441730.html