与三月的文本生成更新类似,OpenAI再次试图提前结束AI Agent的创业竞赛。
北京时间7月18日凌晨,OpenAI发布了ChatGPT Agent。它可以根据用户的指令,自动规划执行步骤,调用多种工具,并完成从抓取数据到生成表格、规划行程到预订酒店等多环节任务。
这也是目前多数AI Agent创业项目正在尝试的方向。4个月前在Manus那场号称首个通用AI Agent宣传片中看到的内容,ChatGPT Agent已经实现。
OpenAI创始人山姆·阿尔特曼(Sam Altman)表示,这是他第一次“真正感受到AGI(通用人工智能)”。OpenAI的研究人员则称,ChatGPT Agent是迄今为止最强的AI Agent模型。
——是的,OpenAI将ChatGPT Agent称为一个模型,而非产品。与Manus等依赖上下文管理、工具链编排的系统不同,OpenAI训练了一个专用模型,能够在单一系统中完成任务规划、跨工具调用和文档生成等复杂流程。该模型目前被归入o3系列,但尚未被单独命名。
AI时代的创业者们面临着比任何历史时期都更快速的技术迭代,一次底层模型更新往往就能毁掉一个垂直领域的创新产品。
理想汽车创始人李想此前在朋友圈表示,在to C层面,掌握最强基座模型的企业如OpenAI,不会留下什么垂直应用的创业空间。“软件的本质是功能,需要场景化、垂直化。人工智能的本质是能力,能力强就可以吃掉一切,也是用户最方便的。”
就连一直高喊AI应用创新的朱啸虎也在社交媒体上表示,大模型会吃掉90%的Agent。X平台上也有用户发问,如果OpenAI后续开放ChatGPT Agent模型的API,其他创业者该如何与其竞争?
“Listen-that's the sound of a great many startups evaporating into the void.”(听——那是无数初创公司悄然蒸发的声音。)
OpenAI发布会视频下的一条高赞评论写道。
至少在目前,Manus们还没有表现出任何退让迹象。
OpenAI发布会刚结束,Manus就在X上转发推文称,“Welcome to the game.”同属于华人AI Agent创业公司的flowith也转发强调,他们早在一年前就推出了AI Agent产品。
作为过去半年最早对外喊出通用AI Agent口号的创业公司,Manus的反应要比其他公司强烈得多。发布会结束仅3个小时,Manus就一口气对外放出了10条与ChatGPT Agent的对比测试,宣称要和OpenAI正面较量。
这些对比内容部分来自OpenAI当日展示的演示片段,部分则来自用户在社交平台上的真实使用。涵盖场景包括数据整理、路线规划、在线购物、财务分析、餐厅预订等,Manus发出的测试结果几乎全面占优——不仅响应更快,也更强调“任务完成度”,如表格更整洁、图示更丰富、PPT更接近成品。
比如OpenAI演示的“计划一次为期三天的棕榈泉网球之旅”,OpenAI给出的是一张简单的行程表,而Manus生成的则是一张带有目的地风格设计的行程海报。
又如分析旧金山市过去四年的财务报告,OpenAI输出的是Excel文件,而Manus给出的是包含图表与要点总结的完整演示文档。“Manus完成的是整个项目,而不仅仅是提供数据。”Manus评价说。
另一家华人公司Genspark的反应同样高调。创始人景鹏(Eric Jing)在X上写道:“我从未想过有一天——作为一家只有24人的小公司,我们竟然可以领先……领先于OpenAI。”他表示,用同样的提示词,Genspark的响应时间更短、成本更低,生成结果的质量也“高出好几倍”。
7月19日,Genspark也在社交平台上分享了9个与ChatGPT Agent的对比实例,显示他们输出的文档数据维度更丰富,排版更加美观。除了与Manus对比测试中类似的旅游行程制定、财务数据分析等案例外,他们还分享了一则视频生成能力的对比,指出ChatGPT Agent未能完成任务。
社交媒体上用户们的反馈并不如此前OpenAI更新文生图功能那样强烈。一些批评声音指出ChatGPT Agent任务的完成度不高,任务生成速度也比较缓慢,部分复杂任务需要20分钟乃至更长时间才能完成。
OpenAI似乎也意识到当前的ChatGPT Agent的速度问题,他们拍摄的几条宣传视频里,员工往往在下达指令后就合上笔记本,等到稍晚再返回查看结果。
“即便耗时15分钟或半个小时,相比你自己手动完成也已经是显著的提速了。”OpenAI的研究员Isa Fulford说。她表示,这是一种“可以在后台发起任务,过一会儿再回来查看结果”的使用方式,而OpenAI的搜索团队则更专注于低延迟场景。
尽管面临一些批评声音,但OpenAI强调他们专门为ChatGPT Agent训练了专用模型。然而部分批评者指责它更像是将此前已经推出的Operator(浏览器交互能力)与Deep Research(深入研究能力)组合在一起的产物。Operator可以支持ChatGPT通过浏览器与网站直接互动、阅读并理解网页内容,而Deep Research则擅长分析和总结信息。
事实上,ChatGPT Agent目前团队成员正是来自此前的Operator与Deep Research部门。OpenAI对外表示,ChatGPT Agent是Operator和Deep Research功能的自然延续,“我们发现用户通过Operator尝试的许多查询实际上更适合Deep Research,因此我们将两者的优势结合在一起。”
相较于初创公司们过去半年来围绕输出质量和交付体验不断工程迭代和提示优化,OpenAI刚刚发布的ChatGPT Agent在任务的最终呈现上可以称得上是粗糙。
初创公司们试图为用户呈现一个完成度更高且上手难度更低的Agent产品。以Manus为例,过去2个月来这家公司先后为产品加入了包括PPT生成、视频生成、音频生成等诸多不同能力。即便这些能力的实现都依托于外部模型,但至少在上手难度上,初创公司们都做得比OpenAI更好一些。
但抛去这些应用体验创新,在基础模型的能力比拼维度上,ChatGPT Agent通过端到端训练的统一模型显然更有优势。OpenAI为ChatGPT Agent做了诸多学术测试,部分测试结果甚至领先于OpenAI o3或GPT 4o,达到行业最高水平。
比如在《人类的最后考试》(Humanity’s Last Exam)评估中,ChatGPT Agent取得了41.6%(pass@1)的新高成绩。而在DSBench测试中,ChatGPT Agent大幅度领先于GPT-4o。在数据分析任务中的表现更是明显优于人类水平。
ChatGPT Agent的正式推出标志着AI Agent正式进入巨头博弈的时代。它带给人类的社会影响不会比大模型爆发之初的影响小。这种改变已经在悄然发生。
微软和亚马逊等科技巨头们都在密集裁员。微软CEO萨蒂亚·纳德拉今年初表示微软20%到30%的代码都由AI生成。一家金融科技公司Klarna更是早在去年初就对外宣布他们的AI Agent仅投入使用一个月就处理了公司2/3的客服聊天工作相当于700名全职人工客服的工作量。
市场研究机构MarketsandMarkets表示全球的AI Agent市场将从2024年的51亿美元增长至2030年的471亿美元年均复合增长率(CAGR)达44.8%。Deloitte预测到2025年使用生成式AI的公司将有25%开始试点智能体到2027年将增长至50%。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437650.html