当前位置:首页 > 科技资讯 > 正文

ChatGPT Agent:开启AI Agent新纪元

今年AI领域最令人瞩目的焦点无疑是Agent,而OpenAI自然不甘落后。

北京时间2025年7月18日凌晨1点,Sam Altman与四位OpenAI研究员通过直播,正式发布了ChatGPT Agent——一款通用型AI Agent。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第1张

尽管前有Manus、Lovart和Flowith等产品,但ChatGPT Agent的发布意义远超其当前功能。

ChatGPT Agent的革命性在于其独特的技术路径:它能主动从工具箱中选择代理技能,使用自己的计算机完成任务,用户可实时观察AI在虚拟环境中的工作过程。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第2张

虽然与Manus等产品界面相似,但ChatGPT Agent的底层原理有着本质差异。Manus通过调用多个底层模型实现“外部缝合”,而ChatGPT Agent则将Agent能力内化于模型,展示了端到端通用Agent的雏形。

根据OpenAI介绍,为了开发ChatGPT Agent,他们将Operator和Deep Research团队合并为一个统一团队,这个新团队由20至35人组成。

根据系统卡片显示,ChatGPT Agent是一个新的代理模型,与OpenAI o3同属一个系列,采用端到端的训练方法。它是为代理任务开发的统一模型,而非多个模型的工程化组合。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第3张

根据OpenAI放出的对比PPT,这一训练基本上是通过强化学习过程完成,与Grok4withtool的路径类似。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第4张

经过再训练,Agent结合了Deep research的多步研究和高质量报告生成能力、Operator通过远程可视化浏览器环境执行任务的能力、具有有限网络访问权限的终端工具,以及通过连接器访问外部数据源和应用程序的能力。

完成复杂任务后,还可以交付给用户一个可下载的PPT或文档。

对Manus而言,OpenAI的这一新举措无疑是巨大打击。从定价来看,两者也差距不大:GPT的Plus套餐每月20美金即可使用ChatGPT Agent,而Manus的基础计划是每月19美金。

划重点:

  • ChatGPT Agent:能执行复杂、多工具任务的统一AI Agent。
  • 它集成了对文本浏览器、GUI 浏览器、终端和图像生成工具的访问。
  • 支持与用户进行交互式、多轮对话,允许打断和澄清。
  • 安全防护升级:加强对网页“恶意提示”攻击的防御;设置高风险任务自动拒绝;生物/化学风险也按最高级别安全堆栈处理。
  • 在多个现实世界和基准任务中取得最先进结果。

ChatGPT Agent概览,功能类似Manus

ChatGPT Agent的核心是一个统一的代理系统 (unified agentic system),整合并扩展了 OpenAI 早期研究项目 “Operator”(侧重网站交互)和 “Deep Research”(侧重信息综合)的能力。

这使得 ChatGPT Agent 能够在单一对话流中无缝地从推理思考切换到执行具体动作。

  • 虚拟计算机环境:ChatGPT Agent在一个为其特设的虚拟计算机上执行所有任务。该环境沙盒化确保操作安全。它能在该环境中保存任务上下文,即使用户中途打断或改变指令,也能从断点继续而不丢失进度。
  • 智能工具箱:为了完成复杂工作流,Agent配备了四种工具,并可根据任务需求自动选择最合适工具:
  • 可视化浏览器 (Visual Browser):用于与图形用户界面交互,如点击按钮、填写表单和浏览为人类设计的网站。
  • 文本浏览器 (Text-based Browser):用于需要高效推理和处理大量文本的网络查询。
  • 终端 (Terminal):允许Agent运行代码、下载和处理文件。
  • API访问:可直接调用API获取信息,例如通过连接器访问Google Drive、Gmail和GitHub等应用的数据。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第5张

新模型驱动:ChatGPT Agent由一个专门为其开发的新模型驱动。该模型通过强化学习 (reinforcement learning) 方法在需要使用多种工具的复杂任务上进行专门训练,从而学会在不同工具间流畅切换并协同工作。

ChatGPT Agent:开启AI Agent新纪元 Agent AI 技术革新 安全升级 第6张

特性:

  • 自主任务执行:用户可用自然语言下达指令,例如“分析我的日历并根据最近的新闻为我简报即将到来的客户会议”。Agent能自主规划并执行系列操作,如浏览网站、筛选信息、运行代码分析,并生成可编辑的幻灯片或电子表格等成果。
  • 协作与交互性:它会在需要时主动询问更多细节以完成目标。用户可随时中断、重定向任务或完全接管浏览器控制权。
  • 安全与权限控制:安全性是其设计的核心部分。在执行关键操作前,如购买、提交表单、发送邮件或处理个人信息等具有实际影响的任务时,Agent会明确请求用户许可。同时,它禁止执行高风险任务如金融转账或提供法律建议。OpenAI还内置了针对“提示注入”等恶意攻击的防护措施。