智东西9月16日最新消息,OpenAI于今日凌晨发布了新模型GPT-5-Codex。该模型基于GPT-5,专为软件工程优化,显著提升了Codex中的智能体编程(Agentic Coding)能力。
据OpenAI博客介绍,GPT-5-Codex的训练聚焦于实际的软件工程工作,能够根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过7个小时。
在基准测试中,与GPT-5相比,GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都有所提升。
发布后仅两个多小时,OpenAI联合创始人、CEO萨姆·阿尔特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已达到Codex总流量的40%左右,预计今天就能超过一半。
在开发者使用Codex的所有场景中,GPT-5-Codex均可用。它是云端任务和代码审查的默认工具,开发者可通过Codex命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择用于本地任务。
今年4月,OpenAI首次推出开源编程智能体Codex CLI,5月推出Codex的网页版。两周前,将Codex整合为通过ChatGPT账户连接的单一产品体验,使开发者可在本地环境和云端之间无缝迁移工作。
Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中。对于通过API密钥使用Codex CLI的开发人员,OpenAI计划很快在API中提供GPT-5-Codex。
在OpenAI的X评论区,开发者对这次新发布表示期待,但也有人对AI工具订阅预算表示担忧。
GPT-5-Codex针对复杂的实际工程任务进行了训练,如构建完整项目、添加功能和测试、调试、执行大规模重构及代码审查。它遵循AGENTS.md指令,生成高质量代码。开发者只需提出需求,无需冗长的风格或整洁性说明。
此外,GPT‑5-Codex根据任务复杂程度动态调整思考时间,执行任务时间从几秒到7小时不等。该模型结合了编程智能体的两项基本技能:与开发者配对及在长时间任务上持续独立执行。
历史数据显示,包括GPT-5发布时,OpenAI公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果。如今可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%,高于GPT-5的72.8%。
OpenAI测试了新模型的代码重构能力,涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%,高于GPT-5的33.9%。
测试中,研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现、修复测试错误并最终交付成功。
基于内部员工使用情况,研究人员发现当按模型生成的token数对用户交互轮次进行排序时,GPT-5-Codex使用的token比GPT-5少93.7%。排名前10%的情况正好相反,GPT-5-Codex会进行更多思考,花费的时间是GPT-5的两倍。
GPT-5-Codex还可执行代码审查并查找关键缺陷。审查时,它会浏览代码库,推理依赖关系,运行代码和测试以验证正确性。
OpenAI评估了热门开源存储库中近期提交的代码审查性能。发现GPT-5的错误评论有约13.7%,而GPT-5-Codex仅为4.4%。高影响力评论占比中,GPT-5有39.4%,而GPT-5-Codex有52.4%。每个拉取请求的平均评论数中,GPT-5有1.32条,而GPT-5-Codex有0.9条。
他们发现,GPT-5-Codex的意见不太可能出错或无关紧要。
据TechCrunch报道,OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称,GPT-5-Codex性能提升很大程度上得益于其动态思考能力。用户可能熟悉ChatGPT中GPT-
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441378.html