当前位置:首页 > 科技资讯 > 正文

ChatGPT Agent:革新多模态协同处理,探索AI新纪元

  1. ChatGPT Agent由Deep Research与Operator整合而成,它融合了文本理解与视觉交互能力,能够执行多种任务,展现了强大的多模态协同处理能力。
  2. 其核心训练方法是强化学习,通过任务奖励机制让模型自主学习工具使用策略,突破了预设编程的局限,拥有高效的数据利用和广泛的泛化能力。
  3. ChatGPT Agent能执行长达一小时的任务,支持多轮对话与用户交互调整,例如生成财报模型、撰写研究报告、搜索商品等,开创了AI与人类协作的新模式。
  4. 其开发团队小而高效,研究与工程深度融合,围绕用户场景进行跨职能协作与快速迭代,是OpenAI工程与产品整合的典型实践。
  5. 为保障安全性,OpenAI实施了多层防护措施:红队测试、实时行为监控、权限确认机制等,防止模型执行有害操作或被误导滥用。
  6. OpenAI致力于构建通用超级智能体,处理人类在计算机上的几乎所有任务。

ChatGPT Agent:革新多模态协同处理,探索AI新纪元 Agent 多模态协同 强化学习 安全保障 第1张

7月23日消息,红杉资本日前举办了一场对话会,与OpenAI ChatGPT Agent团队成员深入探讨其技术创新与未来潜力。对话由红杉资本两位合伙人索尼娅·黄(Sonya Huang)和劳伦·里德(Lauren Reeder)共同主持,参与ChatGPT Agent发布活动的OpenAI团队成员伊萨・富尔福德(Isa Fulford)、凯西·楚(Casey Chu)和孙之清(Edward Sun)参加。

在这场对话中,他们分享了ChatGPT Agent的开发历程,探讨了ChatGPT Agent如何结合Deep Research和Operator的优势,实现跨领域任务的高效执行。他们还讨论了ChatGPT Agent的安全保障措施以及广泛的应用场景。

按照OpenAI的设想,ChatGPT Agent将具备更强的独立判断能力,能够根据每个用户的习惯和需求提供定制化服务,并支持语音、文字、图像等多种交流方式。未来,OpenAI将打造通用超级智能体,能够处理人类在计算机上的几乎所有任务。

以下为对话内容精简版:

主持人:今天,我们将与OpenAI团队的富尔福德、凯西·楚和孙之清共同探讨AI Agent的演进历程。你们开发了全新的ChatGPT Agent,请介绍一下它的核心功能和重大突破。

富尔福德:感谢邀请我们参加节目。ChatGPT Agent是Deep Research和Operator团队协作开发的成果。这款AI Agent能够执行复杂且耗时长达一小时的多步骤任务。我们为它配备了一个虚拟计算机环境,集成了文本浏览、视觉浏览、终端访问和API集成等功能,所有这些工具共享状态,类似于人类使用计算机时多个应用程序共享文件系统。

这种设计让ChatGPT Agent能够灵活处理各种复杂任务,显著提升效率和能力。我们对这款模型在多轮对话中的表现尤为满意,它能持续处理任务并不断改进。未来,我们希望进一步增强个性化和记忆功能,使ChatGPT Agent能够在无需用户主动发起的情况下执行任务。

01 诞生与演进

主持人:能否分享一下这个项目的起源故事?它是如何开始的?

凯西·楚:这个项目源于Deep Research和Operator两个产品的结合。2025年1月,我们发布了Operator,它能够执行在线购物等互联网任务。

两周后,我们推出了Deep Research,专注于浏览和综合网络信息,生成带有引文的详细研究报告。在制定未来发展路线时,我们意识到这两个产品可以互补。

Operator擅长处理视觉交互,例如点击网页元素,而Deep Research更擅长处理文本信息,例如阅读长篇文章。用户反馈显示,他们希望Deep Research能访问付费内容,而Operator已具备这种能力。因此,将两者结合是一个自然而然的选择。

孙之清:我们的团队通过统一Deep Research和Operator的架构,实现了能力的巨大飞跃。所有工具共享状态,用户可以在文本分析、视觉浏览和代码执行之间流畅切换。我们没有预先编程工具的使用模式,而是通过强化学习,在数千个虚拟机上让模型自行发现最佳策略。

这种方法使ChatGPT Agent能够与用户协作数小时,提出澄清问题并接受任务中的更正,极大地扩展了与AI智能体的交互方式。我们还面临安全性和任务复杂性等挑战,例如日期选择对AI仍是一个难题。小型团队通过精心的数据筛选实现了突破,表明AI发展进入了一个新阶段。

02 多场景任务能力

ChatGPT Agent:革新多模态协同处理,探索AI新纪元 Agent 多模态协同 强化学习 安全保障 第2张

主持人:ChatGPT Agent的具体应用场景有哪些?用户如何使用它?

富尔福德:我们有意设计了一个开放式的智能体,命名为“ChatGPT Agent”,鼓励用户探索其潜力。我们训练它处理Deep Research任务,例如生成详细报告;训练它完成Operator任务,例如预订航班或在线购物;以及数据分析任务,例如创建电子表格或幻灯片。其灵活性让我们期待用户会发现更多未曾预料的用途。

03 训练与突破

主持人:从技术角度看,ChatGPT Agent是如何训练的?

凯西·楚:我们采用了强化学习(RL)技术

...