AGI的尽头是「带货」吗?一个名为「Vending Bench」的AI新榜单让大模型经营真实的自动售货机,在长周期商业任务中一较高下。在这场独特的较量中,马斯克的Grok-4凭借更强的「卖货」能力超越了GPT-5。
AI「卖货」果然有点料。
Grok 4在Vending Bench榜单上超越GPT-5,销量高出约2倍,营收增长31%!
Grok比OpenAI GPT-5多卖了1100美元的货物,并且在稳定性和销量方面均占据优势。
而且比大多数竞争对手维持更长时间的销售势头。
连马斯克都因为「Grok多卖了点货」,变得傲娇起来。
因为这次领先,马斯克甚至有点「奥特曼化」了,动不动就把AGI挂嘴边了。
上次奥特曼大谈特谈AGI让他「瘫坐」在椅子上,然后GPT-5发布后被喷完了。
不过,老马从来不是一个「嘴炮」选手,硅谷有句话「不要和Elon做对」。
或许Grok 5还真的有点料!
说回这次的Vending Bench榜单。
从完整的榜单来看,Grok 4和GPT-5在这个任务中的综合表现最强。
Grok 4在创造财富和销售方面无与伦比,而GPT-5则在持久性和稳定性上达到了完美,与人类基准持平。
Claude系列的模型表现各异,Opus 4表现不错,而Sonnet系列则相对较弱。
其实这个「实验」从7月21日就开始了。
当时xAI的员工发帖表示办公室刚刚迎来了Andon Labs好友们提供的由Grok驱动的自动售货机!
很多人都在猜Grok在下个月能赚多少钱?
这个售货机长下面这样。一块屏幕,上面写着Grokbox以及「我在这里经营我的自动售货业务,在Slack上与我聊天」。
上面露出的食物左边看起来是日清拉面,右边是零食,看起来是一盒黄色的「Swedish Fish」(瑞典鱼)软糖,再往后看,能看到饼干和薯片等。
右侧看起来像一个后台操作日志或开发者界面,显示了系统正在执行的命令,如「send_message」(发送消息)和「update_task」(更新任务)。
Vending-Bench是一个专门设计用来评估人工智能(AI)智能体在执行长期、复杂任务时表现如何的基准测试。
AI会扮演一个自动售货机业务的经理。
长上下文也是大挑战。
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439991.html