当前位置：首页 > 科技资讯 > 正文

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？

AGI的尽头是「带货」吗？一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机，在长周期商业任务中一较高下。在这场独特的较量中，马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。

AI「卖货」果然有点料。

Grok 4在Vending Bench榜单上超越GPT-5，销量高出约2倍，营收增长31%！

Grok比OpenAI GPT-5多卖了1100美元的货物，并且在稳定性和销量方面均占据优势。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第1张

而且比大多数竞争对手维持更长时间的销售势头。

连马斯克都因为「Grok多卖了点货」，变得傲娇起来。

因为这次领先，马斯克甚至有点「奥特曼化」了，动不动就把AGI挂嘴边了。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第2张

上次奥特曼大谈特谈AGI让他「瘫坐」在椅子上，然后GPT-5发布后被喷完了。

不过，老马从来不是一个「嘴炮」选手，硅谷有句话「不要和Elon做对」。

或许Grok 5还真的有点料！

01

说回这次的Vending Bench榜单。

从完整的榜单来看，Grok 4和GPT-5在这个任务中的综合表现最强。

Grok 4在创造财富和销售方面无与伦比，而GPT-5则在持久性和稳定性上达到了完美，与人类基准持平。

Claude系列的模型表现各异，Opus 4表现不错，而Sonnet系列则相对较弱。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第3张

其实这个「实验」从7月21日就开始了。

当时xAI的员工发帖表示办公室刚刚迎来了Andon Labs好友们提供的由Grok驱动的自动售货机！

很多人都在猜Grok在下个月能赚多少钱？

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第4张

这个售货机长下面这样。一块屏幕，上面写着Grokbox以及「我在这里经营我的自动售货业务，在Slack上与我聊天」。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第5张

上面露出的食物左边看起来是日清拉面，右边是零食，看起来是一盒黄色的「Swedish Fish」（瑞典鱼）软糖，再往后看，能看到饼干和薯片等。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第6张

右侧看起来像一个后台操作日志或开发者界面，显示了系统正在执行的命令，如「send_message」（发送消息）和「update_task」（更新任务）。

Vending-Bench是一个专门设计用来评估人工智能（AI）智能体在执行长期、复杂任务时表现如何的基准测试。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第7张

AI会扮演一个自动售货机业务的经理。

AI“卖货”竞赛：Grok 4超越GPT-5，AGI之路何在？ AGI Vending Bench Grok 4 GPT-5 第8张

长上下文也是大挑战。

性价比服务器服务器教程云服务器

本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439991.html