当前位置:首页 > 科技资讯 > 正文

ChatGPT Agent登场:通用AI代理技术路径再审视

美国时间7月17日,万众瞩目的OpenAI通用型ChatGPT Agent正式发布。这款Agent整合了深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,然而仍存在速度慢、个性化不足等短板。其发布重新引发市场热议,通用AI代理的技术路径选择再次成为焦点。

ChatGPT Agent的架构核心是“浏览器+沙盒虚拟机”,与Manus、Genspark形成鲜明对比。在底层架构层面,浏览器(Browser-based)代理虽然功能强大,但运行速度较慢;沙盒虚拟机(Sandbox)高效,但无法联网操作,工具库受限;工作流集成(Workflow API)速度快、结果精准,但业务范围有限。

不同架构模式下的主流Agent各有优劣势。针对B端客户和C端客户的Agent产品,在适用场景和技术逻辑上存在显著差异。Agent将重塑互联网入口,那么依靠广告营收的创作者们将如何维持商业模式?本期《硅谷101》,主播泓君与Pokee.ai创始人、前Meta AI应用强化学习团队负责人朱哲清深入对话,解析Agent的技术逻辑与未来趋势(此内容非常干货,我们将分为上下两集推送~)。

ChatGPT Agent登场:通用AI代理技术路径再审视 Agent 通用AI代理 技术路径 浏览器沙盒 第1张

以下是这次对话内容的精选:

01 主流底层架构对比:浏览器、沙盒环境、工作流

泓君:与市面上的通用型AI Agent相比,ChatGPT Agent的主要区别是什么?这些通用型AI Agent的优劣势分别是什么?我相信它们在解决不同场景的问题上会有所区分。

ChatGPT Agent登场:通用AI代理技术路径再审视 Agent 通用AI代理 技术路径 浏览器沙盒 第2张

朱哲清:目前的通用Agent包括Perplexity、OpenAI等。OpenAI在基于浏览器的产品中能力最强,特别是在深度研究和浏览器操作方面。例如,在最新推出的Browsing Camp基准测试中,OpenAI的得分超过了其他竞争对手。

ChatGPT Agent登场:通用AI代理技术路径再审视 Agent 通用AI代理 技术路径 浏览器沙盒 第3张 图源:ChatGPT

朱哲清:Operator在浏览器执行层面表现较好,但其尝试涵盖过多功能导致速度较慢。Manus虽也使用浏览器,但主要依赖大模型和执行工具,受限于预设程序包。

02 四大底层架构解析:浏览器更万能,虚拟机更高效

ChatGPT Agent登场:通用AI代理技术路径再审视 Agent 通用AI代理 技术路径 浏览器沙盒 第4张

泓君:基于浏览器(Browser-based)和沙盒(Sandbox)的搭建方式是目前AI Agent的主要底层架构。

朱哲清:现有Agent分为四类:基于浏览器的Agent、浏览器加沙盒的Agent、仅有沙盒的Agent以及可横跨多工具集成的Agent。浏览器Agent能集中呈现网页服务,但速度慢且Token消耗高。

朱哲清:沙盒环境适合离线脚本运行,但无法联网。大模型加沙盒的Agent如Genspark受限于特定环境,工作流式Agent通过第三方服务集成保证交付可靠。

03 用户体验差异化:速度与通用性的平衡

泓君:从用户体验来看,Pokee、Genspark、Manus和ChatGPT Agent有何明显区别?

朱哲清:这些Agent在体验上存在显著差异。Manus力求万能环境,但受限于浏览器能力和执行速度。ChatGPT Agent在Deep Research方面表现优秀,但速度同样较慢。

04 专业端VS非专业端:技术选择分野

泓君:这些Agent的商业模式是面向C端还是B端?

朱哲清:我们的产品面向专业人士,重复性工作流更适合B端用户。平台开放的SDK和API对Agent发展至关重要。

05 Agent重塑互联网入口:流量分发的深度变革

泓君:Agent将如何改变互联网入口和创作者商业模式?

朱哲清:Agent将取代部分Web流量,改变工作流和推荐系统。广告形式将变,创作者生态可能改善。