当前位置:首页 > 科技资讯 > 正文

ChatGPT Agent:AI智能体,执行任务新飞跃

ChatGPT Agent,现在不仅能思考行动,还能主动选择工具,利用自己的虚拟计算机为你高效完成任务。

AI智能体时代,已经悄然到来。

北京时间周五凌晨,OpenAI 突然开启了新产品的直播发布会。

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第1张

此次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第2张

与以往的基础大模型升级不同,通用 Agent 可以自动利用多种工具进行规划,帮助人们完成复杂的任务,包括自动浏览用户日历,生成可编辑的 PPT,运行代码等等。Agent 能够连接你的 Gmail、GitHub 网站获取信息并解决问题,使用 API 来访问各种应用。Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基准上拿到了 41.6% 的分数,是 o3 和 o4-mini 的几乎两倍。

ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 计划的订阅用户开放。想要使用的用户在 ChatGPT 的工具下拉菜单中选择「Agent 模式」即可。

OpenAI 表示,企业版和教育版用户预计将于夏季晚些时候获得新功能。在正式发布时,Pro 用户每月通常最多可使用 400 次 Agent 提示,其他付费用户则最多可使用 40 次。目前尚不清楚该功能何时会面向 ChatGPT 免费用户推出。

这是 OpenAI 迄今为止最为大胆的一次新产品发布,从此以后 ChatGPT 成为了一款能够为人们采取行动和分担任务的 Agent 产品,已经远远超出了回答问题的范畴。

OpenAI CEO 山姆・奥特曼(Sam Altman)表示,看着 ChatGPT 智能体使用计算机执行复杂任务对他来说是一个真正的「感受 AGI」的时刻,看到计算机思考、计划和执行会带来全新的感受。

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第3张

ChatGPT Agent 现在可以使用自己的虚拟电脑为你完成工作,从头到尾处理复杂任务。用户不仅可以让 ChatGPT 执行诸如「查询年度财务报告」等请求,并智能地浏览网站、筛选结果,在需要时提示你安全登录,运行代码、进行分析,甚至可以交付可编辑的幻灯片和电子表格,总结其研究成果。

比如让「ChatGPT Agent 搜索查询旧金山市年度综合财务报告(2020-2024 年)」:

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第4张

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第5张

再比如输入提示「我是一位网球迷,想去棕榈泉观看网球比赛,特别是在半决赛 / 决赛期间。我住在旧金山,请帮我制定一份详细的三天行程,包括航班安排、酒店预订、活动内容(比赛、徒步、美食、水疗等)。我喜欢徒步旅行、纯素食餐厅和水疗。总预算为 3000 美元。这份行程需要包括:精确的时间安排;每项活动的内容、费用和其他细节;如有需要,提供购票或预订链接」,接着让 ChatGPT Agent 帮你制定详细的行程:

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第6张

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第7张

这一新能力的核心是一个统一的智能 agentic 系统,它结合了三个早期突破的优势:Operator 的网站交互能力、deep research 的信息综合能力以及 ChatGPT 的智能推理与对话能力

ChatGPT 借助自己的虚拟计算环境,在推理与执行之间灵活切换,根据用户的指令,从头到尾处理复杂的工作流程。 最重要的是,用户始终掌控全局。ChatGPT 会在执行任何重要操作前征求你的许可,你也可以随时中断任务、接管浏览器或停止运行。

OpenAI 表示,「虽然 ChatGPT Agent 已经可以应对复杂任务,但这次发布只是开始。我们将持续迭代、定期推出重大改进,让它变得更强大、更实用,服务于更多用户。」

Operator 与深度研究的自然进化

过去,Operator 和 deep research 各自具备独特优势:Operator 能够在网页上滚动、点击和输入,而 deep research 擅长分析和总结信息。

不过,二者在不同场景下才发挥最大作用,各有不擅长的领域。Operator 无法深入分析或撰写详细报告,而 deep research 又无法与网页交互、进一步筛选结果或访问需要用户登录的内容。

OpenAI 发现,许多用户尝试用 Operator 处理的任务,其实更适合用 deep research 处理。因此决定将二者的优势整合在一起。

通过将这些互补能力集成进 ChatGPT Agent 并引入更多工具,OpenAI 在一个模型中解锁了全新的能力。它现在可以主动与网站交互 —— 点击、筛选并收集更精准、高效的结果。用户也可以在同一个对话中从自然的交流无缝过渡到发出具体操作请求。

OpenAI 为 ChatGPT Agent 配备了一整套工具:包括一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端(命令行界面),以及直接调用 API 的能力

该 agent 还可以利用 ChatGPT Connectors 将 Gmail、GitHub 等应用连接进来。这使得 ChatGPT 能够查找与用户提示相关的信息并将其用于回答中。用户也可以通过接管浏览器在任意网站上登录账户,从而帮助它在信息检索和任务执行方面更深入、更广泛。

基准测试结果:拓展现实世界的实用性

ChatGPT Agent 及背后模型的能力提升体现在多个基准测试中的顶尖表现,评估内容包括网页浏览和现实世界任务的完成能力。

其中在「人类最后考试」(Humanity's Last Exam)评估中(这项评估衡量了 AI 在各个领域的专家级问题上的表现),支持 ChatGPT Agent 的模型在该评估中的 Pass@1 分数为 41.6%。

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第8张

FrontierMath 是目前已知最难的数学基准测试之一。在具备工具使用能力(例如可访问终端以执行代码)的情况下,ChatGPT Agent 在该测试中达到了 27.4% 的准确率。

ChatGPT Agent:AI智能体,执行任务新飞跃 Agent  AI智能体 任务执行 通用智能体 第9张