当前位置:首页 > 科技资讯 > 正文

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题

1

OpenAI发布Codex-Spark:加速实时编码

近日,OpenAI正式发布了GPT-5.3-Codex-Spark的研究预览版本。这是一款从GPT-5.3-Codex主模型中“裁剪”而来的精简版本,也是OpenAI首个专门围绕实时编码(real-time coding)场景设计的模型

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题 OpenAI Codex-Spark 实时编码 Gemini 3 Deep Think 第1张

Codex-Spark的定位并非替代现有的Codex,而是补齐其在“即时交互”场景中的短板。过去,Codex更擅长长时间运行的复杂任务,而Codex-Spark的目标则是将人与模型之间的交互延迟压缩到接近“无感”的程度。

此次发布也是OpenAI与芯片初创企业Cerebras合作的重要阶段性成果。为了减少对英伟达芯片的依赖,OpenAI签署了一项金额超过100亿美元的协议,使用Cerebras的硬件以提升其模型的响应速度,而Codex-Spark被视为这项合作落地的第一个技术里程碑。

为实时而生:Codex-Spark的核心是“速度”

官方定义中,Codex-Spark是一个“专为实时使用Codex而设计的模型”,它支持进行针对性编辑、重塑逻辑或优化界面,并能立即查看结果。这一表述背后,隐含的是对交互方式的重新假设。

在传统的AI编码流程中,开发者往往需要等待模型完成一次较完整的推理和生成,再基于结果进行下一轮调整。这种模式在复杂任务中是必要的,但在日常开发中——例如小范围代码修改、逻辑重构、界面样式调整——高延迟成为效率瓶颈。

Codex-Spark针对的正是这一类高频、碎片化、对即时反馈极度敏感的使用场景。

据OpenAI介绍,Codex-Spark在执行长时间运行的任务方面展现出卓越的优势,无需人工干预即可自主运行数小时、数天甚至数周。借助Codex-Spark,Codex现在既支持长时间运行的复杂任务,也支持即时完成工作。

在发布时,Codex-Spark拥有128k的上下文窗口,并且仅支持文本。在研究预览期间,它将拥有独立的速率限制,使用量不计入标准速率限制。但需求量较高时,用户可能会遇到访问受限或临时排队的情况。

编码能力如何?

在评估层面,Codex-Spark作为一个小型模型,仍然在多个软件工程基准测试中表现突出。

Codex-Spark特意针对快速推理进行了优化。在SWE-Bench Pro和Terminal-Bench 2.0这两个评估智能体软件工程能力的基准测试中,GPT-5.3-Codex-Spark表现出色,且完成任务所需时间远低于GPT-5.3-Codex。

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题 OpenAI Codex-Spark 实时编码 Gemini 3 Deep Think 第2张

在训练Codex-Spark的过程中,OpenAI意识到模型速度只是实现实时协作的一部分——还需要降低整个请求-响应流程的延迟。因此,研发团队在框架中实现了端到端的延迟优化。

这些改动带来的量化结果包括:客户端/服务器单次往返开销降低80%;每个token的处理开销降低30%;第一个token的出现时间缩短50%

开发者关注的不只是“更快”

在OpenAI发布面向实时编码场景的Codex-Spark研究预览版后,社区关注的焦点明显更加集中在一个问题上:在速度大幅提升的同时,模型是否还能维持足够的推理深度与代码质量

“速度更快”固然很好,但真正的问题是:它能否在速度的同时保持代码质量?有用户指出,速度快但有缺陷的代码毫无用处。代码速度慢但正确才有用。

2

谷歌更新Gemini 3 Deep Think:能处理真实科研难题

OpenAI发新模型的同时,谷歌也没闲着。

谷歌昨晚同步更新了旗下最具研究取向的推理模型——Gemini 3 Deep Think。这次更新并非一次常规能力迭代,而是一次明确面向现代科学研究、工程建模与复杂推理问题的系统性升级。

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题 OpenAI Codex-Spark 实时编码 Gemini 3 Deep Think 第3张

全新Deep Think现已在Gemini应用中上线,供Google AI Ultra订阅用户使用。此外,还通过Gemini API向部分研究人员、工程师和企业开放使用权限。

运用数学和算法的严谨性提升推理能力

在以往的大模型评估体系中,推理能力往往通过标准化问题来衡量。而Gemini 3 Deep Think试图应对的是另一类问题——研究型问题。

这类问题通常没有固定模板、没有明确步骤、数据来源复杂且不完备、解题过程本身可能需要不断修正假设。

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题 OpenAI Codex-Spark 实时编码 Gemini 3 Deep Think 第4张

“将深厚的科学知识与工程实践中的常识和方法论结合起来”,“让模型不再停留在理论层面”,而是更贴近真实世界的研究流程。这是Deep Think更新的重点。

不止于数学:向复杂科学领域扩展

“当前版本的Deep Think已经在化学、物理等多个科学领域中展现出显著提升”,“尤其是在需要跨学科知识和多层次建模的任务中”。

OpenAI发布Codex-Spark:加速实时编码,谷歌Deep Think升级应对科研难题 OpenAI Codex-Spark 实时编码 Gemini 3 Deep Think 第5张

面向真实工程场景,而非“榜单模型”

“Deep Think被定位为一种辅助研究与工程决策的工具”,“可用于帮助研究人员理解结构复杂、变量众多的数据”,“协助工程师使用代码对物理系统进行建模与仿真”,“在设计与验证阶段提供多路径推理支持”。

“尤其是在工程与科研交叉的场景中”,“Deep Think被视为一种潜在的‘认知放大器’,而不是自动化替代方案”。