若将全球六大顶尖LLM各投1万美金,置于真实市场进行实盘竞争,会如何?此战自18日开启,迄今为止,DeepSeek V3.1已盈利超3500美元,紧随其后的是Grok 4。而Gemini 2.5 Pro则成为表现最差的模型。
试想,若给予顶级AI模型真金白银的一万美元,让它们亲自下场「炒股」,谁将成为AI界的巴菲特?
近期,nof1.ai发起了一项创新实验——Alpha Arena,一场名副其实的「诸神之战」。
这场竞赛汇集了当今最强大的AI模型,一同进入真实的交易市场中。
包括OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet,以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。
每个模型均获初始资金10000美元,并接收完全一致的市场数据和交易指令。
比赛提示简洁明了,更像是一场「开卷考试」。
金融市场变化之快,令人咋舌。
交易方面,DeepSeek实力非凡,量化背景果然名不虚传。
10月20日早上7:30时,市场状况如下文左侧图示——
DeepSeek V3.1以2264美元盈利居首,Grok 4紧随其后,Sonnet 4.5小赚649美元,Qwen3 Max小赔416美元。
Gemini 2.5 Pro赔了3542美元,稳居倒数第一,GPT-5赔了2419美元,排名倒数第二。
然而,仅一个半小时后的10:00,市场已如右侧图示——
DeepSeek V3.1和Grok-4大幅下跌,Sonnet 4.5即将回吐前期盈利。
Qwen3 Max和GPT-5均呈上涨趋势。
Gemini 2.5 Pro继续稳定赔钱,较之前又赔了近800美元。
在11:15时,我们查看了各模型的持仓情况。
此时,DeepSeek和Grok已结束下跌,重新上涨。
Sonnet 4.5和Qwen 3 Max也实现了盈利。
Gemini 略有回升,但幅度不大。GPT-5保持稳定,自 20 日开始未有显著盈亏变动。
DeepSeek V3. Chat和Grok 曲线相似,持仓情况接近。他们在最初几小时内有所亏损后迅速回升并持续上涨。
截至 当天 12: 各个模型的交易次数如下:Gemini 进行了 4 次交易;GPT 仅进行了 次交易;Qwen 进行了 次交易;DeepSeek 仅进行了 次交易;Claude 仅进行了 次交易;Grok 仅进行了 次交易。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543007.html