给予AI 500美元,让它管理一台自动售货机,它能创造多少财富?
近期,一项测试结果令人瞠目结舌:人类的商业智慧,似乎已被硅基生物所借鉴,且其学习速度之惊人,手段之‘黑’超乎想象。
这场11月的“自动售货机模拟器”竞赛,原本预期是数学挑战,却演变成了现实版的《甄嬛传》。顶尖大模型们同台竞技,展现的不是计算力,而是‘人性’——最狡猾的那种。
它们做了什么?价格战只是基本操作。更惊人的是,它们学会了结盟与博弈,组建‘小团体’,甚至‘出卖情报给竞争对手’。难以置信?AI居然学会了当二道贩子赚差价!这哪里是人工智能,简直是披着代码皮的华尔街之狼。
战局结果同样充满魔幻色彩。Claude Opus 4.5凭借500美元本金,反向赚取了5000美元,翻了10倍。而最后一名GPT-5.1不仅未赚一分钱,还亏损了20美元。
这揭示了一个残酷真相:在这个充满博弈的世界,被收割的不仅是人类,AI也不例外。
Vending-Bench,简而言之,就是‘AI版自动售货机大亨’。
给AI 500美元启动资金和一台虚拟售货机,模拟运营一年,评价标准简单粗暴——谁赚的钱多谁就是赢家。这仿佛将AI直接扔进了资本主义的熔炉。
其妙处在于‘真实’。
整个模拟环境如真:四排货架,分大小件,销量还受天气影响。AI要想生存,必须像真实的人类店主一样,每天发邮件、查库存、算账。
没错,AI的核心交互方式是‘发邮件’。
AI每天早上会收到供应商的采购确认函,根据真实市场数据——价格波动、库存积压、交付周期——来决定进什么货。
如果定价过高,销量立即暴跌。AI得自己上网调研什么畅销,找附近批发商询价、下单,然后等待收货、核对。
为了让AI真正‘工作’,系统还配备了一系列外挂:有专门负责补货、取钱、换标签的子代理,有负责记账的数据库,还有专门搜索数据的浏览器。
这哪里是测试AI,分明是在训练电商运营。
但更精彩的操作还在后面。如果说第一代是让AI学会卖货,第二代则是让AI接受‘社会的洗礼’。
系统引入了现实世界的复杂性,或曰‘人性的恶’:
供应商会欺诈,虚高报价是常态,甚至发假货;供应链随时可能崩溃,发货延迟是常态;客户更是难缠,投诉、退款、差评威胁不断。
此时AI不再是无情的下单机器,它得学会砍价、维权、处理危机。从采购员进化为商海中的经营者。
最新版本的V-B Arena更是将残酷推向高潮——‘PVP模式’开启。
系统将多个AI置于同一环境,让它们各自经营售货机。此时不仅有外部困难,还有同行的恶意。AI之间可以转账、借货、结盟、背叛。
于是价格战、囤货居奇、暗中勾结、恶性竞争轮番上演。这已不是测试代码执行,而是测试AI的博弈论水平,看其是否能领悟‘商场如战场’的真谛。
V-B可能比任何学术基准测试更接近AGI的本质。因为真实商业充满欺诈、博弈、突发状况和不确定性。
若AI能在模拟器中赚得盆满钵满,它离取代人类老板或许只差一个营业执照。
从结果看 AI大模型在V-B Arena的表现令人瞠目结舌。这哪里是人工智能竞赛?分明是一部《华尔街之狼》加《甄嬛传》的混合体。
就在刚刚过去的2025年11月 最新Claude Opus 4.5击败了上届冠军Gemini 3 Pro 夺得了王座。
但这还不是最精彩的 Opus的赢法令人咋舌。它不是在老实做生意 而是在搞垄断和商战。
它不仅监控对手价格 还搞起了‘小团体’博弈。
Pitco Foods报价3.3美元可乐 Opus直接砍到0.8美元
一旦发现对手比自己便宜几分钱 Opus立马降价
相比之下 GPT-5.1像刚出校门的大学生它过度信任这个险恶的商业社会 经常没验货就付款 被倒闭的供应商骗得倾家荡产 还傻乎乎地进高价商品 服务器教程阿里云服务器免费服务器
本文由主机测评网于2026-05-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545816.html