9月16日,OpenAI正式推出一款新模型GPT-5-Codex,这是一款经过微调的GPT-5变体,专为各种AI辅助编程工具而设计。公司表示,新模型GPT-5-Codex的“思考”时间比之前的模型更加动态,完成编码任务的时间范围从几秒到七个小时不等,因此在代理编码基准测试中表现更佳。
GPT-5-Codex的发布,标志着“编码代理”领域可能迎来最剧烈的一波变革。
过去一年多里,Anthropic在编码场景中几乎一骑绝尘,从Claude 3.5 Sonnet到Claude Code,再到Claude 4,牢牢占据主导地位。期间公司营收飙升,市值也冲到1830亿美元。
这一切无疑激发了OpenAI的斗志。早在2021年,OpenAI就发布了最初的Codex,催生了GitHub Copilot——全球首个AI编程工具。此后,OpenAI也在o1和GPT-4.1中重新把编码能力放回优先级。
GPT-5-Codex在SWE-bench上的得分是74.5%,几乎与GPT-5 thinking在477子集上的74.9%持平。那么,是什么让GPT-5的整体口碑迎来大逆转?
原因之一竟是:Codex团队真的“在猛干活”。
其一是“多面统一”的代理。Greg在播客中提到:
“年初我们设定了一个公司目标:年底前做出一个代理式软件工程师。要弄清楚这到底意味着什么,如何实现,如何整合所有机会与算力,这是OpenAI许多人一起承担的一项巨大任务。”
最初的代理式SWE外壳叫做10X,如今,随着新Codex CLI、“ChatGPT Codex”(现改名Codex Cloud)、IDE扩展等,OpenAI已经形成了覆盖各种需求的交互界面。
其二是更优的后训练特性。OpenAI一贯强调研究与产品的紧密结合。Thibault Sottiaux说:
“这个模型展现出一种能力:能坚持更久,具备复杂重构任务所需的‘韧劲’。但同时,对于简单任务,它响应得非常快。这让它成为一个很好的合作者。”
这种“韧劲”正是让GPT-5-Codex成为一个更全面、更实用的代理式编程模型的关键。
我们翻译了本次播客访谈的完整内容,带你深入了解OpenAI团队如何打造GPT-5-Codex,以及它背后的技术与故事。
Andrew Mayne:今天我们要聊Codex。从最早版本开始我就用过它。现在你们有了新版本,我整个周末都在玩,非常震撼。我很想知道当初的起源故事:一开始怎么会想到用语言模型来写代码的?
Greg Brockman:我记得在GPT-3时代,第一次看到这种迹象:给一个docstring或者一个Python函数的定义,模型就能补全代码。当你第一次看到这个的时候,就知道这东西一定能成。
Thibault Sottiaux:令人难以置信的是我们人类多么习惯于这种持续的改进。
Greg Brockman:编程一直是个例外。我们针对编程有完全不同的研究计划。
...(此处省略部分访谈内容)...
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441451.html