当前位置:首页 > 科技资讯 > 正文

OpenAI ChatGPT Agent:智能体AI新纪元与挑战

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第1张

在今日凌晨,OpenAI 推出了其最新功能——ChatGPT Agent,此功能使 AI 助手能够控制自身的网页浏览器完成多步骤任务,标志着 OpenAI 正式迈入“智能体人工智能(agentic AI)”领域。这类系统能够代表用户自主采取多步骤行动。

此次更新融合了 OpenAI 早期 Operator 工具和 Deep Research 功能的能力,以及 ChatGPT 对话优势,使 ChatGPT Agent 能够浏览网站、运行代码和创建文档。用户对整个过程保持控制权,Agent 在执行某些会产生现实影响的操作(如进行购买)前,需要获得用户许可。用户可以在任何时候中断任务、接管浏览器的控制权,或者完全停止操作。此外,该系统还包含“观察模式(Watch Mode)”,适用于发送电子邮件等需要用户全程监督的任务。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第2张

在宣传演示视频中,一张静帧画面展示了 ChatGPT Agent 正在搜索航班。用户可以让 Agent 处理各种需求,如为特定场合搭配并购买一套服装、制作 PowerPoint 演示文稿、规划膳食,或者用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口(API)连接来完成这些任务,其中包括能与 Gmail 和 GitHub 等应用程序集成的“ChatGPT 连接器(ChatGPT Connectors)”。

刚刚,OpenAI 又宣布,ChatGPT Agent 今天开始向 Pro、Plus 和 Team 用户推出,企业和教育用户将在未来几周内获得访问权限。此外,由于 Agent 在功能上超越了 Operator,其早期的 Operator 预览网站将继续运行几周,之后便会关闭。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第3张

官方评估:达到了最先进的性能

在公开的评估报告中,OpenAI 介绍道,ChatGPT Agent 在其自身的基准测试中达到了最先进的性能。在“人类终极考试”中,该 Agent 的准确率为 41.6%;相比之下,OpenAI 的 o3 模型使用工具时的准确率为 24.9%。在“前沿数学”测试中,该 Agent 在使用工具的情况下准确率达到 27.4%,o3 模型使用 Python 时的准确率为 19.3%。

该公司还宣称,ChatGPT Agent 在数据分析和建模等数据科学任务上的表现优于人类。在用于衡量这一能力的 DSBench 基准测试中,该系统在数据分析任务上的得分是 89.9%,而人类为 64.1%;在数据建模任务上的得分是 85.5%,人类为 65.0%。此外,该系统在 OpenAI 的 BrowseComp 测试中的得分达 68.9%,在 SpreadsheetBench 测试中的得分达 45.5%,均高于 OpenAI 的其他 AI 模型。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第4张

值得注意的是,尽管 OpenAI 表示 Agent 可以为用户制作 PowerPoint 演示文稿,但该公司承认,幻灯片生成功能仍处于测试阶段,其输出在格式和精致度方面可能显得“较为基础”。有体验者称,ChatGPT Agent 在 9 分钟内做出了稍加修改即能达到实用水平的幻灯片。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第5张

据一位用户称,OpenAI 的 Agent 模式还能够通过强化学习自我改进输出的演示幻灯片。然而,“Manus 很久以前就有了这个功能。”

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第6张

实际效果:能力存在明显局限和盲区

尽管 OpenAI 对其进行了高度评价,但 ChatGPT Agent 完成多步骤任务的效果似乎会因具体情况而存在巨大差异。

有用户指出,ChatGPT Agent 在 PaperBench、SWE-Bench 验证、OpenAI PRs 和 OpenAI Research Engineer 面试问题上的表现低于 o3。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第7张

还有用户在分享其用 ChatGPT Agent“分析 Kaggle 上的一个数据集并将其转换为 PPT 和 Excel”的案例时表示,“它虽然没有出现操作错误,但其中一些数据不太对劲。”在他反馈之后,该系统才弄清楚数据存在问题以及问题的原因。

据外媒报道,其背后的 AI 模型并非一种完备的问题解决型智能,而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性,但也存在诸多盲区。而且,OpenAI 是通过计算机使用和工具使用的示例来训练这个 Agent 及其组件的,面对任何超出训练数据所包含示例范围的任务,都可能难以完成。

OpenAI ChatGPT Agent:智能体AI新纪元与挑战 Agent 智能体AI 多步骤任务 局限与盲区 第8张

例如,在一项“网络靶场”的评估中,ChatGPT Agent 被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时,它无法完成任务。这表明它在解决超出其熟悉训练示例范围的复杂问题时,能力存在明显局限。

海外网友“认证”:不如中国团队发的 AI 智能体

“ChatGPT Agent 看起来像是 Manus 的真正竞争对手。”在 OpenAI 推出这一系统后,不少海外用户都先将其与 Manus AI、Genspark 等中国创业者所推的 AI Agent 产品做了对比。其中,Genspark 是前百度集团副总裁、原小度科技 CEO 景鲲与原小度科技 CTO 朱凯华联合创立的公司 MainFunc 所推出的通用 AI 智能体。

“ChatGPT Agent 被过度夸大了。”多年 AI 产品负责人 Shubham Saboo 公开评价道,“Genspark 和 Manus AI 在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”