凭借一套极致精简的架构——仅需 1 个 PostgreSQL 主库与 50 个只读副本,OpenAI 成功承载了 ChatGPT 庞大的 8 亿用户群体!
近日,OpenAI 官方工程团队公开了 Codex 智能体的核心技术细节。Technical Staff 成员 Michael Bolin 发布了题为《揭秘 Codex 智能体循环》的深度技术文章,详细剖析了 Codex CLI 的底层框架:智能体循环(Agent Loop)。文章深入探讨了 Codex 在处理模型查询时如何构建上下文、管理交互逻辑,并分享了基于 Responses API 构建智能体的最佳实践。
这些技术细节在 Hacker News 等社区引发了热议。技术专家们纷纷感叹:“看似朴实的技术往往才是最终的赢家。OpenAI 的实践证明,扎实的架构设计远比堆砌花哨的工具更具生产力。”
值得关注的是,行业内对架构效率的讨论愈发激烈。此前 Anthropic 工程师曾自嘲 Claude Code UI 的架构效率低下,而 X 平台上的爆料更是惊人:Codex 现已承包了 OpenAI 内部 100% 的代码编写任务。
针对“内部编码中有多少比例依赖 AI 模型”的问题,知名账号 roon 回复道:“100%,我本人已经不再亲自动手写代码了。”而 Sam Altman 曾公开承认 roon 正是他的小号。
“每一个 AI 智能体的灵魂都在于其智能体循环(Agent Loop),它负责编排用户、大模型以及各类执行工具之间的协同工作。”
在 OpenAI 的技术栈中,“Codex”是一个家族化产品,涵盖了 CLI、Cloud 及 VS Code 插件。虽然形态各异,但它们背后的逻辑框架和执行引擎高度统一。
Agent Loop 的工作原理简化示意图
首先,智能体接收用户指令,并将其整合进精心设计的提示词(Prompt)中。随后进入推理阶段,模型根据输入 Token 进行采样,生成回复。由于 Token 是流式生成的,应用端可以同步展示结果。推理完成后,模型要么直接给出最终答复,要么发出工具调用指令。若是后者,智能体会执行该操作并将结果反馈给模型,开启新一轮推理,直至任务圆满完成。
这种机制意味着,智能体的输出不仅是文本,还包括在本地环境执行的代码编辑。每一次闭环最终都以“助手消息”收尾,标志着控制权交还用户。
多轮次智能体交互循环
随着对话深入,提示词长度激增。面对上下文窗口的物理限制,高效的上下文管理成为了智能体系统的核心竞争力。
Codex 利用响应 API(Response API)驱动整个循环,其背后隐藏着许多不为人知的优化技巧:
首先是提示词的精细构建:Codex 绝不直接投喂用户原始文本,而是通过角色权重(系统、开发者、用户、助手)进行复杂的提示词拼接。模型推理与工具调用之间通过多轮迭代,确保信息的动态增长与任务的精准执行。
在调用接口时,开发者无需手动排布 Token 顺序,而是由响应 API 根据角色优先级自动组织。Codex 会预先插入开发者指令来限制沙箱环境,并聚合项目根目录下的 AGENTS.md 等文档内容,以确保智能体具备充足的上下文背景知识。
响应 API 核心参数包括指令、工具集和输入数据。Codex 会根据配置文件自动补充环境信息(如当前目录、Shell 类型),并结合 MCP 服务器提供的自定义工具,最终形成发往后端的 JSON 负载。
提示词就绪后,采样正式开始。第一轮交互通常返回推理结果或函数调用请求。Codex 将这些事件转化为对象,并作为后续请求的输入前缀,确保模型能够基于历史状态进行连续思考。
这一设计利用了“提示词缓存”技术,将静态内容放在前段,变动内容置于末尾,从而大幅提升计算效率。当对话转到用户端时,上一轮的上下文被完整保留,推动对话进入新的阶段。
为了严格遵守零数据保留(ZDR)政策并保护用户隐私,Codex 放弃了便捷的状态化参数(如 previous_response_id),转而采用无状态请求。这一决定带来了巨大的工程挑战,为此 OpenAI 投入了海量精力研发两项核心优化技术:
首先是极致的提示词缓存管理。由于模型采样成本高昂,Codex 团队必须确保提示词前缀的完全匹配。他们精细控制工具列表的加载顺序,规避因配置变更导致的缓存失效。即使是复杂的 MCP 工具动态通知,也被设计得极度严谨。
其次是上下文压缩(Compaction)。当 Token 数量触及瓶颈时,Codex 不会简单丢弃信息,而是通过专用的 /responses/compact 端点生成加密的对话摘要。这种方式在释放空间的同时,保留了模型对历史脉络的深度理解。
在后端架构方面,OpenAI 工程师 Bohan Zhang 分享了震撼业界的经验:通过对 PostgreSQL 的深度压测与优化,他们实现了单节点写压力下的超大规模扩展。这一传统的数据库体系支撑了 ChatGPT 爆发式的流量增长。
据统计,OpenAI 的 PostgreSQL 负载在过去一年增长了 10 倍以上。通过使用 Azure PostgreSQL 弹性服务器的单主节点,配合全球分布的 50 个只读副本,系统成功应对了每秒数百万次的查询。在极高的并发下,99 分位延迟依然维持在 10ms 左右,可用性直逼“五个九”标准。唯一的重大波动仅发生在图像生成功能上线引发的用户暴涨期间。
目前,OpenAI 正在进一步探索 PostgreSQL 的极限,包括将部分负载迁移至 CosmosDB 以及推进级联复制技术。这种“回归本质、做到极致”的架构思想,为开发者们提供了新的思路:在追求分布式与 NoSQL 的潮流中,传统的 PostgreSQL 配合优秀的工程实践,依然能创造出承载全球亿级用户的技术神话。
参考链接:
https://openai.com/index/unrolling-the-codex-agent-loop/
https://openai.com/index/scaling-postgresql/
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433714.html