当前位置:首页 > 科技资讯 > 正文

OpenAI推出GPT-5-Codex:智能编码新纪元

9月15日,OpenAI正式发布了其最新模型GPT-5-Codex,这是一款经过微调的GPT-5变体,专为各类AI辅助编程工具而设计。据公司介绍,GPT-5-Codex的“思考”时间更加动态,从几秒到七个小时不等,使它在代理编码基准测试中表现更佳。

OpenAI推出GPT-5-Codex:智能编码新纪元 GPT-5-Codex 智能编码 代码审查 动态调整 第1张

OpenAI推出“最卷”编码智能体GPT-5-Codex

GPT-5-Codex的一大亮点是其增强的代码审查功能,能够在产品发布前发现潜在的关键错误,帮助开发者提前规避风险。

与静态分析工具不同,Codex将PR的声明意图与实际差异进行匹配,对整个代码库及其依赖项进行推理,并执行代码和测试以验证行为。因此,它填补了人工审查的空白——帮助团队更早地发现问题,减轻审查人员的负担,并更自信地交付。

一旦在GitHub代码库中启用Codex,它就会自动审核PR,并在PR上发布其分析。如果它建议修改,用户可以请求Codex实施这些修改。用户也可以通过在PR中提及“@codex审核”来明确请求审核。

目前,GPT-5-Codex已成为Codex云任务和代码审查的默认设置,同时开发者也可通过Codex CLI和IDE扩展程序将其应用于本地开发环境。

在OpenAI,Codex现在负责审核公司内部绝大多数的PR,每天发现数百个问题——通常比人工审核开始还要早。这对于Codex团队快速、自信地推进项目至关重要。

OpenAI推出GPT-5-Codex:智能编码新纪元 GPT-5-Codex 智能编码 代码审查 动态调整 第2张

此外,GPT-5-Codex的另一个技术突破在于能够根据任务复杂度,动态调整思考时间。模型结合了两种核心技能:一方面,它能在交互式会话中与开发者进行敏捷配对;另一方面,它也能在大型任务中持续独立执行,直到交付完整成果。

在内部测试中,GPT-5-Codex展现了处理复杂工程任务的强大能力:它能够连续独立工作超过7小时,完成大型重构,不断迭代、修复测试错误,并最终交付成功实现。这意味着,无论是小型、定义明确的请求,还是需要长期迭代的大规模项目,GPT-5-Codex都能胜任。

自今年4月推出Codex CLI、5月上线Codex网页版以来,Codex已逐步发展为更高效的协作型编码工具。两周前,OpenAI又将Codex整合为一个基于ChatGPT账号的统一产品体验。

如今,Codex已可在多种平台运行,包括终端、IDE、网页、GitHub以及ChatGPT iOS应用。它也被纳入ChatGPT Plus、Pro、Business、Edu和Enterprise等套餐,为不同层级的用户提供一致的体验。

多项基准测试中击败GPT-5

那么,这款模型在各项基准测试中表现如何?

OpenAI表示,GPT-5-Codex在SWE-bench Verified上的表现优于GPT-5。SWE-bench Verified是衡量代理编码能力的基准,也是衡量来自大型成熟存储库的代码重构任务性能的基准。

值得一提的是,在OpenAI推出GPT-5时,只在477个SWE-bench Verified任务上报告结果。在被Anthropic指出这一问题后,OpenAI迅速做出了调整,如今任务数量达到了500个。

OpenAI推出GPT-5-Codex:智能编码新纪元 GPT-5-Codex 智能编码 代码审查 动态调整 第3张

根据OpenAI的使用数据,在按生成token(包含隐藏推理和最终输出)排序的用户轮次中:

对于后10%的低负载任务,GPT-5-Codex使用的token数量比GPT-5减少了93.7%,显著提升了效率。

而在前10%的高复杂度任务中,GPT-5-Codex的推理、编辑、测试和迭代时间是GPT-5的两倍,显示其在复杂工程上的深度投入。

OpenAI推出GPT-5-Codex:智能编码新纪元 GPT-5-Codex 智能编码 代码审查 动态调整 第4张

这种灵活性让模型在不同任务场景下都能实现资源利用最优。

网友怎么看?

GPT‑5-Codex的发布在网络上引发热议。

知名博主Dan Shipper称已经体验过GPT-5-Codex,并对其效果感到震撼。“它会根据任务动态选择‘思考’时间——难题上能长时间工作,简单问题则能即时给出答案。”

“在我们的生产代码库测试中,它可以自主运行长达35分钟——相比之下,GPT-5往往过于谨慎。它支持本地与网页开发环境的无缝切换。有时候它会‘偷懒’——在某些任务上可能思考不足。”

OpenAI推出GPT-5-Codex:智能编码新纪元 GPT-5-Codex 智能编码 代码审查 动态调整 第5张

大笔资金流向AI编码工具

此次更新是OpenAI努力提升Codex与其他AI编码产品(例如Claude Code、Anysphere的Cursor或微软的GitHub Copilot)的竞争力的一部分。

由于用户需求旺盛,AI编码工具市场在去年变得更加拥挤。Cursor的制造商Anysphere于6月完成了9亿美元融资。本月初,Claude制造商Anthropic宣布完成新一轮融资。

在巨额融资与激烈竞争的交织下,AI编码赛道正在进入前所未有的高光时刻:巨头加码、初创狂奔、资本追逐。但如何让AI编码工具真正融入开发流程、提升生产力,仍有待时间验证。