当前位置：首页 > 科技资讯 > 正文

ChatGPT Agent：革新多模态协同处理，探索AI新纪元

主机测评网
科技资讯
2026-04-16
892

ChatGPT Agent由Deep Research与Operator整合而成，它融合了文本理解与视觉交互能力，能够执行多种任务，展现了强大的多模态协同处理能力。

其核心训练方法是强化学习，通过任务奖励机制让模型自主学习工具使用策略，突破了预设编程的局限，拥有高效的数据利用和广泛的泛化能力。

ChatGPT Agent能执行长达一小时的任务，支持多轮对话与用户交互调整，例如生成财报模型、撰写研究报告、搜索商品等，开创了AI与人类协作的新模式。

其开发团队小而高效，研究与工程深度融合，围绕用户场景进行跨职能协作与快速迭代，是OpenAI工程与产品整合的典型实践。

为保障安全性，OpenAI实施了多层防护措施：红队测试、实时行为监控、权限确认机制等，防止模型执行有害操作或被误导滥用。

OpenAI致力于构建通用超级智能体，处理人类在计算机上的几乎所有任务。

ChatGPT Agent：革新多模态协同处理，探索AI新纪元 Agent 多模态协同强化学习安全保障第1张

7月23日消息，红杉资本日前举办了一场对话会，与OpenAI ChatGPT Agent团队成员深入探讨其技术创新与未来潜力。对话由红杉资本两位合伙人索尼娅·黄（Sonya Huang）和劳伦·里德（Lauren Reeder）共同主持，参与ChatGPT Agent发布活动的OpenAI团队成员伊萨・富尔福德（Isa Fulford）、凯西·楚（Casey Chu）和孙之清（Edward Sun）参加。

在这场对话中，他们分享了ChatGPT Agent的开发历程，探讨了ChatGPT Agent如何结合Deep Research和Operator的优势，实现跨领域任务的高效执行。他们还讨论了ChatGPT Agent的安全保障措施以及广泛的应用场景。

按照OpenAI的设想，ChatGPT Agent将具备更强的独立判断能力，能够根据每个用户的习惯和需求提供定制化服务，并支持语音、文字、图像等多种交流方式。未来，OpenAI将打造通用超级智能体，能够处理人类在计算机上的几乎所有任务。

以下为对话内容精简版：

主持人：今天，我们将与OpenAI团队的富尔福德、凯西·楚和孙之清共同探讨AI Agent的演进历程。你们开发了全新的ChatGPT Agent，请介绍一下它的核心功能和重大突破。

富尔福德：感谢邀请我们参加节目。ChatGPT Agent是Deep Research和Operator团队协作开发的成果。这款AI Agent能够执行复杂且耗时长达一小时的多步骤任务。我们为它配备了一个虚拟计算机环境，集成了文本浏览、视觉浏览、终端访问和API集成等功能，所有这些工具共享状态，类似于人类使用计算机时多个应用程序共享文件系统。

这种设计让ChatGPT Agent能够灵活处理各种复杂任务，显著提升效率和能力。我们对这款模型在多轮对话中的表现尤为满意，它能持续处理任务并不断改进。未来，我们希望进一步增强个性化和记忆功能，使ChatGPT Agent能够在无需用户主动发起的情况下执行任务。

01 诞生与演进

主持人：能否分享一下这个项目的起源故事？它是如何开始的？

凯西·楚：这个项目源于Deep Research和Operator两个产品的结合。2025年1月，我们发布了Operator，它能够执行在线购物等互联网任务。

两周后，我们推出了Deep Research，专注于浏览和综合网络信息，生成带有引文的详细研究报告。在制定未来发展路线时，我们意识到这两个产品可以互补。

Operator擅长处理视觉交互，例如点击网页元素，而Deep Research更擅长处理文本信息，例如阅读长篇文章。用户反馈显示，他们希望Deep Research能访问付费内容，而Operator已具备这种能力。因此，将两者结合是一个自然而然的选择。

孙之清：我们的团队通过统一Deep Research和Operator的架构，实现了能力的巨大飞跃。所有工具共享状态，用户可以在文本分析、视觉浏览和代码执行之间流畅切换。我们没有预先编程工具的使用模式，而是通过强化学习，在数千个虚拟机上让模型自行发现最佳策略。

这种方法使ChatGPT Agent能够与用户协作数小时，提出澄清问题并接受任务中的更正，极大地扩展了与AI智能体的交互方式。我们还面临安全性和任务复杂性等挑战，例如日期选择对AI仍是一个难题。小型团队通过精心的数据筛选实现了突破，表明AI发展进入了一个新阶段。

02 多场景任务能力

ChatGPT Agent：革新多模态协同处理，探索AI新纪元 Agent 多模态协同强化学习安全保障第2张

主持人：ChatGPT Agent的具体应用场景有哪些？用户如何使用它？

富尔福德：我们有意设计了一个开放式的智能体，命名为“ChatGPT Agent”，鼓励用户探索其潜力。我们训练它处理Deep Research任务，例如生成详细报告；训练它完成Operator任务，例如预订航班或在线购物；以及数据分析任务，例如创建电子表格或幻灯片。其灵活性让我们期待用户会发现更多未曾预料的用途。