当前位置：首页 > 科技资讯 > 正文

OpenAI发布GPT-5-Codex：智能编程工具新飞跃

主机测评网
科技资讯
2026-04-29
221

智东西9月16日最新消息，OpenAI于今日凌晨发布了新模型GPT-5-Codex。该模型基于GPT-5，专为软件工程优化，显著提升了Codex中的智能体编程（Agentic Coding）能力。

据OpenAI博客介绍，GPT-5-Codex的训练聚焦于实际的软件工程工作，能够根据任务动态调整思考时间，在大型复杂任务上能够独立工作超过7个小时。

在基准测试中，与GPT-5相比，GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都有所提升。

发布后仅两个多小时，OpenAI联合创始人、CEO萨姆·阿尔特曼（Sam Altman）就在X中透露，GPT-5-Codex的流量占比已达到Codex总流量的40%左右，预计今天就能超过一半。

OpenAI发布GPT-5-Codex：智能编程工具新飞跃 GPT-5-Codex 智能编程动态调整性能提升第1张

在开发者使用Codex的所有场景中，GPT-5-Codex均可用。它是云端任务和代码审查的默认工具，开发者可通过Codex命令行界面（CLI）或集成开发环境（IDE）进行扩展，选择用于本地任务。

今年4月，OpenAI首次推出开源编程智能体Codex CLI，5月推出Codex的网页版。两周前，将Codex整合为通过ChatGPT账户连接的单一产品体验，使开发者可在本地环境和云端之间无缝迁移工作。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中。对于通过API密钥使用Codex CLI的开发人员，OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区，开发者对这次新发布表示期待，但也有人对AI工具订阅预算表示担忧。

OpenAI发布GPT-5-Codex：智能编程工具新飞跃 GPT-5-Codex 智能编程动态调整性能提升第2张

01 根据任务动态调整思考时间，错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂的实际工程任务进行了训练，如构建完整项目、添加功能和测试、调试、执行大规模重构及代码审查。它遵循AGENTS.md指令，生成高质量代码。开发者只需提出需求，无需冗长的风格或整洁性说明。

此外，GPT‑5-Codex根据任务复杂程度动态调整思考时间，执行任务时间从几秒到7小时不等。该模型结合了编程智能体的两项基本技能：与开发者配对及在长时间任务上持续独立执行。

历史数据显示，包括GPT-5发布时，OpenAI公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果。如今可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%，高于GPT-5的72.8%。

OpenAI测试了新模型的代码重构能力，涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%，高于GPT-5的33.9%。

OpenAI发布GPT-5-Codex：智能编程工具新飞跃 GPT-5-Codex 智能编程动态调整性能提升第3张

测试中，研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时，不断迭代实现、修复测试错误并最终交付成功。

基于内部员工使用情况，研究人员发现当按模型生成的token数对用户交互轮次进行排序时，GPT-5-Codex使用的token比GPT-5少93.7%。排名前10%的情况正好相反，GPT-5-Codex会进行更多思考，花费的时间是GPT-5的两倍。

OpenAI发布GPT-5-Codex：智能编程工具新飞跃 GPT-5-Codex 智能编程动态调整性能提升第4张

GPT-5-Codex还可执行代码审查并查找关键缺陷。审查时，它会浏览代码库，推理依赖关系，运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能。发现GPT-5的错误评论有约13.7%，而GPT-5-Codex仅为4.4%。高影响力评论占比中，GPT-5有39.4%，而GPT-5-Codex有52.4%。每个拉取请求的平均评论数中，GPT-5有1.32条，而GPT-5-Codex有0.9条。

他们发现，GPT-5-Codex的意见不太可能出错或无关紧要。

OpenAI发布GPT-5-Codex：智能编程工具新飞跃 GPT-5-Codex 智能编程动态调整性能提升第5张