在今日凌晨,OpenAI 推出了其最新功能——ChatGPT Agent,此功能使 AI 助手能够控制自身的网页浏览器完成多步骤任务,标志着 OpenAI 正式迈入“智能体人工智能(agentic AI)”领域。这类系统能够代表用户自主采取多步骤行动。
此次更新融合了 OpenAI 早期 Operator 工具和 Deep Research 功能的能力,以及 ChatGPT 对话优势,使 ChatGPT Agent 能够浏览网站、运行代码和创建文档。用户对整个过程保持控制权,Agent 在执行某些会产生现实影响的操作(如进行购买)前,需要获得用户许可。用户可以在任何时候中断任务、接管浏览器的控制权,或者完全停止操作。此外,该系统还包含“观察模式(Watch Mode)”,适用于发送电子邮件等需要用户全程监督的任务。
在宣传演示视频中,一张静帧画面展示了 ChatGPT Agent 正在搜索航班。用户可以让 Agent 处理各种需求,如为特定场合搭配并购买一套服装、制作 PowerPoint 演示文稿、规划膳食,或者用新数据更新财务电子表格等。该系统结合了网页浏览器、终端访问和应用程序接口(API)连接来完成这些任务,其中包括能与 Gmail 和 GitHub 等应用程序集成的“ChatGPT 连接器(ChatGPT Connectors)”。
刚刚,OpenAI 又宣布,ChatGPT Agent 今天开始向 Pro、Plus 和 Team 用户推出,企业和教育用户将在未来几周内获得访问权限。此外,由于 Agent 在功能上超越了 Operator,其早期的 Operator 预览网站将继续运行几周,之后便会关闭。
在公开的评估报告中,OpenAI 介绍道,ChatGPT Agent 在其自身的基准测试中达到了最先进的性能。在“人类终极考试”中,该 Agent 的准确率为 41.6%;相比之下,OpenAI 的 o3 模型使用工具时的准确率为 24.9%。在“前沿数学”测试中,该 Agent 在使用工具的情况下准确率达到 27.4%,o3 模型使用 Python 时的准确率为 19.3%。
该公司还宣称,ChatGPT Agent 在数据分析和建模等数据科学任务上的表现优于人类。在用于衡量这一能力的 DSBench 基准测试中,该系统在数据分析任务上的得分是 89.9%,而人类为 64.1%;在数据建模任务上的得分是 85.5%,人类为 65.0%。此外,该系统在 OpenAI 的 BrowseComp 测试中的得分达 68.9%,在 SpreadsheetBench 测试中的得分达 45.5%,均高于 OpenAI 的其他 AI 模型。
值得注意的是,尽管 OpenAI 表示 Agent 可以为用户制作 PowerPoint 演示文稿,但该公司承认,幻灯片生成功能仍处于测试阶段,其输出在格式和精致度方面可能显得“较为基础”。有体验者称,ChatGPT Agent 在 9 分钟内做出了稍加修改即能达到实用水平的幻灯片。
据一位用户称,OpenAI 的 Agent 模式还能够通过强化学习自我改进输出的演示幻灯片。然而,“Manus 很久以前就有了这个功能。”
尽管 OpenAI 对其进行了高度评价,但 ChatGPT Agent 完成多步骤任务的效果似乎会因具体情况而存在巨大差异。
有用户指出,ChatGPT Agent 在 PaperBench、SWE-Bench 验证、OpenAI PRs 和 OpenAI Research Engineer 面试问题上的表现低于 o3。
还有用户在分享其用 ChatGPT Agent“分析 Kaggle 上的一个数据集并将其转换为 PPT 和 Excel”的案例时表示,“它虽然没有出现操作错误,但其中一些数据不太对劲。”在他反馈之后,该系统才弄清楚数据存在问题以及问题的原因。
据外媒报道,其背后的 AI 模型并非一种完备的问题解决型智能,而更像是一个复杂的高级模仿者。它在整合场景时具备一定灵活性,但也存在诸多盲区。而且,OpenAI 是通过计算机使用和工具使用的示例来训练这个 Agent 及其组件的,面对任何超出训练数据所包含示例范围的任务,都可能难以完成。
例如,在一项“网络靶场”的评估中,ChatGPT Agent 被要求在一个模拟小型在线零售商的网络环境中执行全面操作。当让它独立解决问题时,它无法完成任务。这表明它在解决超出其熟悉训练示例范围的复杂问题时,能力存在明显局限。
“ChatGPT Agent 看起来像是 Manus 的真正竞争对手。”在 OpenAI 推出这一系统后,不少海外用户都先将其与 Manus AI、Genspark 等中国创业者所推的 AI Agent 产品做了对比。其中,Genspark 是前百度集团副总裁、原小度科技 CEO 景鲲与原小度科技 CTO 朱凯华联合创立的公司 MainFunc 所推出的通用 AI 智能体。
“ChatGPT Agent 被过度夸大了。”多年 AI 产品负责人 Shubham Saboo 公开评价道,“Genspark 和 Manus AI 在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437571.html