当前位置:首页 > 科技资讯 > 正文

OpenAI Atlas浏览器:基于OWL架构的创新设计解析

「这难道仅仅是另一个Chromium套壳浏览器吗?」

针对OpenAI上周发布的AI浏览器Atlas,许多人可能首先产生这样的疑问,参考报道《刚刚,OpenAI 发布 AI 浏览器 ChatGPT Atlas,基于 Chromium》。但如今,OpenAI通过官方技术博客回应了这一观点:他们确实利用了Chromium,但集成方式与众不同。

尽管同时有Sora角色客串功能和GPT-5查找修复安全漏洞智能体的消息,本文核心在于深入剖析Atlas背后的「灵魂」——OWL 架构。探究OpenAI如何驾驭Chromium,将其从简单的界面「换皮」提升至「架构重组」的层次。

基础是 Chromium

OpenAI指出,要让ChatGPT成为网页浏览的真正助手,必须彻底重构浏览器底层架构:将Atlas与Chromium运行时分离。这意味着需开发全新的Chromium集成方式,以实现以下三个关键目标:

实现秒级启动速度

在打开大量标签页时保持流畅

为智能体(Agent)场景奠定坚实基础

OpenAI Atlas浏览器:基于OWL架构的创新设计解析  Atlas OWL架构 Chromium 第1张

OpenAI强调,Chromium是天然的构建基石,提供先进的网页引擎、完善的安全模型、卓越的性能和出色的网页兼容性;更重要的是,它由全球开发者社区持续优化。因此,它成为现代桌面浏览器最广泛采用的底层引擎。

OpenAI Atlas浏览器:基于OWL架构的创新设计解析  Atlas OWL架构 Chromium 第2张

重新定义浏览器体验

虽然基于Chromium,但OpenAI也突出自身设计,包括在「Agent 模式」等功能中引入丰富的动画和视觉效果。

这要求工程团队采用最现代的原生框架(如 SwiftUI、AppKit 和 Metal),而不是简单地为开源Chromium界面「换皮」。

结果,OpenAI表示:「Atlas 的用户界面几乎是从零构建的全新体验。

另外,为了实现快速启动和支持上百个标签页同时运行而不卡顿的目标,需要对Chromium进行优化,因为其默认架构在启动流程、线程模型、标签管理等方面较为「固执」。

OpenAI称:「我们考虑过大幅修改Chromium,但这会使后续更新复杂且脆弱。为了保持开发速度,我们选择了一条更巧妙的路径——重新设计Chromium的集成方式。」

他们的一个关键技术标准是:不仅要加速功能实验、迭代和上线的节奏,还要保留OpenAI的工程文化——第一天就能上线代码。「每位新工程师入职第一天下午需提交并合并一个小改动。即便Chromium源码编译需数小时,我们也确保这一传统得以延续。」

OpenAI 的解决方案:OWL

为解决这些挑战,OpenAI构建了一个新的架构层,称为OWL(OpenAI’s Web Layer)

OWL是OpenAI整合Chromium的方式,其核心理念是:让Chromium的浏览器进程独立运行在 Atlas 主应用进程之外

OpenAI Atlas浏览器:基于OWL架构的创新设计解析  Atlas OWL架构 Chromium 第3张

可以这样理解:Chromium通过将每个标签页放入独立进程来革新浏览器架构;而OpenAI更进一步——将整个Chromium从主应用进程中分离,放入一个独立的服务层。

这种方法带来诸多好处:

更简洁现代的应用:Atlas主要使用SwiftUI和AppKit构建,统一语言、统一技术栈、代码清晰。

更快启动:Chromium在后台异步加载,Atlas几乎瞬间显示界面。

隔离崩溃与卡顿:即使Chromium出现问题,Atlas也不会崩溃。

更少的合并冲突:OpenAI修改的Chromium代码极少,易于维护。

更快的开发节奏:大多数工程师无需本地编译Chromium,OWL内部以预构建二进制形式分发,Atlas构建只需几分钟。

因此,即使是新员工,也能在第一天下午轻松提交改动。

OWL 的工作方式

从高层来看,Atlas 浏览器是 OWL 客户端,而 Chromium 浏览器进程是 OWL 主机(Host)。两者通过Mojo(Chromium的进程间通信系统)进行通信。OpenAI编写了Swift(甚至TypeScript)的Mojo绑定,使Swift应用能直接调用主机端接口。

OWL 客户端库提供了一套简洁的Swift API,用于抽象主机层的关键功能:

Session:全局配置与控制

Profile:管理用户浏览数据

WebView:渲染、输入、导航、缩放等

WebContentRenderer:将输入事件传递给渲染管线

LayerHost/Client:在 UI 与 Chromium 之间交换合成信息

OpenAI Atlas浏览器:基于OWL架构的创新设计解析  Atlas OWL架构 Chromium 第4张

此外,还提供书签、下载、扩展、自动填充等服务端点。

渲染:跨进程传递像素

WebView在客户端应用中共享一个合成容器,不同标签页的内容会动态交换显示。在Chromium一侧,这对应于一个gfx::AcceleratedWidget,由底层的CALayer支撑。

OpenAI的设计是将该层的上下文ID暴露给客户端,由NSView通过私有的CALayerHost API嵌入。

OpenAI Atlas浏览器:基于OWL架构的创新设计解析  Atlas OWL架构 Chromium 第5张

诸如下拉框)会在标签页外单独渲染。在Agent模式下,OpenAI会将这些弹窗重新合成为主页面的一部分,让模型在一帧中看到完整的上下文。

输入事件同样遵循安全原则:Agent生成的事件直接传给渲染器,不经过特权浏览器层,以确保沙箱隔离。例如,防止自动化事件触发系统快捷键等非网页行为。

此外,Agent浏览可以在临时「登出」上下文中运行。它不会使用用户的隐私模式配置,而是借助Chromium的StoragePartition创建独立的内存存储。每个Agent会话都是全新的,结束后所有cookie和数据都会被清除。用户可以同时运行多个互不干扰的「登出」Agent会话。

结语

OpenAI最后再次重申了Chromium的作用:「如果没有全球Chromium社区的卓越贡献,这一切都无法实现。OWL在此基础上开辟了新的方向:将引擎与应用解耦,结合顶级网页平台与现代原生框架,打造更快、更灵活的架构。」

对此,您有何看法?

参考链接

https://openai.com/index/building-chatgpt-atlas/