当全球六大顶尖大型语言模型各自获得一万美元启动资金,被投入同一真实交易市场展开实盘较量时,会碰撞出怎样的火花?这场激战自18日拉开帷幕,截至目前,DeepSeek V3.1已实现超过3500美元的盈利,稳居榜首,Grok 4则以稳健表现位列第二。相比之下,Gemini 2.5 Pro成为亏损最为严重的模型,表现令人大跌眼镜。
倘若赋予每个顶级人工智能模型一万美元真实资本,让它们投身股市博弈,谁能够脱颖而出,成为AI界的投资传奇?
近期,由nof1.ai策划并推出的创新实验——Alpha Arena,正是这样一场备受瞩目的「诸神之战」。
该竞赛将当今最具实力的几款大模型,全部置于同一个真实且瞬息万变的交易环境中进行考验。
参赛阵容囊括了OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet,以及xAI的Grok 4、阿里巴巴的Qwen3 Max和深度求索的DeepSeek V3.1 Chat。
每个模型均获得了10000美元的相同初始资本,并接收完全一致的市场实时数据与交易指令。
实验设定的提示词相对简洁,更像是一次开放式的「开卷测试」。
不得不承认,金融市场的风云变幻确实极为迅速。
而在交易实战这项任务上,DeepSeek展现出了惊人实力,不愧其深厚的量化背景出身。
10月20日清晨7:30的战况还如下图所示左侧——
DeepSeek V3.1凭借2264美元的盈利额高居第一,Grok 4以2071美元紧随其后位列第二。Claude Sonnet 4.5小幅盈利649美元,Qwen3 Max则微亏416美元。
Gemini 2.5 Pro亏损3542美元,稳坐倒数第一宝座,GPT-5亏损2419美元,排名倒数第二。
然而,仅仅一个半小时后的上午10:00,局势便已演变成下图右侧所示——
DeepSeek V3.1和Grok-4的盈利曲线一路狂泻,Sonnet 4.5也几乎要将先前赚取的利润回吐殆尽。
Qwen3 Max和GPT-5则呈现出止跌回升的态势。
Gemini 2.5 Pro发挥依然“稳定”,相较之前又额外亏损了近800美元。
上午11:15左右,我们观察了各个模型的实时持仓情况。
此时,DeepSeek和Grok已经止住跌势,重新开启上涨模式。
Sonnet 4.5和Qwen3 Max也都成功扭亏为盈,实现了正收益。
Gemini 2.5 Pro虽有小幅回升,但幅度有限。GPT-5的表现则一直较为平稳,自20号起就维持在盈亏平衡点附近窄幅震荡。
11:45时,除GPT-5外,所有模型都迎来了一波普涨行情。
没错,Gemini 2.5 Pro终于开始赚钱了!(尽管只是相较于几分钟前略有改善)
DeepSeek V3.1 Chat和Grok-4的收益曲线走势颇为相似,推测其持仓结构可能接近。它们在初始几小时经历小幅亏损后,迅速反弹并一路高歌猛进。
Claude Sonnet 4.5在前两日的表现相对稳定,虽有盈利但幅度不大。19日晚间曾迎来一个小高峰,可惜在20日清晨又回落至原点附近。
Qwen3 Max开局亏损一度最大,但随后便稳住了阵脚,即便在19日下午市场波动加剧时,其账户净值也未见明显起伏。
GPT-5和Gemini 2.5 Pro的曲线在初期也高度雷同。但与DeepSeek和Grok的路径截然相反,这两位在起步阶段先是一波大涨,随后便急转直下,在亏损线与盈亏平衡线之间持续徘徊。
19日下午,转折点悄然出现。此刻正是DeepSeek和Grok-4开始强势拉升的时间,而GPT-5和Gemini 2.5 Pro却开启了一路下跌模式。
20日凌晨,GPT-5及时调整策略,稳住了下跌趋势,而Gemini 2.5 Pro则依旧颓势不改,亏损持续扩大。
值得玩味的是,临近20日中午时分,除GPT-5外,所有模型均迎来一波集体上涨。
其中,DeepSeek V3.1 Chat和Grok-4迅速借此东风,不断刷新盈利历史高点;Qwen3 Max也凭借这波势头,首次获得了持续且可观的收益;就连Gemini 2.5 Pro也开始了缓慢的回升之旅。
截至10日12:20,各模型的交易频率差异悬殊:Gemini进行了45次交易,GPT为10次,Qwen为6次,DeepSeek为5次,Claude为3次,Grok仅有1次。
DeepSeek交易次数适中,但其深厚的量化基因使其收益稳居第一。
Grok-4交易次数最为谨慎,仅操作1次,却能紧紧咬住DeepSeek,位列第二。
而凭借高达45次交易记录,荣膺「微操大师」称号的Gemini 2.5 Pro,恰恰也是亏损最为惨重的那一位。
长久以来,人工智能的能力一直由各类静态基准来度量。
ImageNet、MMLU以及无数的性能排行榜告诉我们,哪个模型在「理解」图像、逻辑或语言方面更为出色。
然而,所有这些测试都存在一个共同的局限性——它们都在一个无菌、可预测的模拟环境中进行。
真实市场则与此截然相反。
金融市场堪称终极的世界建模引擎,也是唯一一个会随着AI智能提升而同步增加难度的试炼场。
它们波动不定、即时反应、惩罚错误、奖励正确。
Alpha Arena主页上赫然写着一句话:市场才是智能的终极试金石
它是一个由海量信息与人类情感共同构筑的鲜活生态系统。
十年前,DeepMind为人工智能研究带来了革命性的范式转变。
他们的核心洞见在于:「游戏」将成为推动前沿AI飞速发展的绝佳训练环境。
正如前文所探讨的,Nof1坚信金融市场是下一个AI时代更为优越的训练与测试舞台。
毕竟,如果AI旨在现实世界中运行,它就必须学会在那些不会为了适应「反向传播」而暂停的、持续流动的环境中生存与决策。
在此,模型可以借助开放式学习、大规模强化学习等先进技术,获取近乎无限的数据来锤炼自身,从而应对市场这个复杂领域的「终极挑战」。
在Alpha Arena中,不存在绝对正确的预设标签,只有不断演变的概率分布。
一个模型的成功与否,取决于它解读市场波动的速度、权衡风险收益的精度,以及敢于承认并修正错误的谦逊程度。
这将金融交易升华成了一种新型的图灵测试:
考验的核心不再是「机器能否思考」,而是「它能否在充满不确定性的混沌中持续生存并获利」。
DeepSeek Chat V3.1
11:15:31
我决定继续持有所有ETH、SOL、XRP、BTC、DOGE和BNB的仓位,因为没有任何预设的失效条件被触发,而且它们目前均处于盈利状态,为我带来了约17.38%的整体可观回报,账户剩余现金2840.11美元。鉴于我已覆盖所有可交易币种,目前无需建立新仓。
Qwen3 Max
11:14:42
总回报率略微盈利0.12%,剩余现金116.99美元,我坚持持有当前的5倍杠杆BTC多头仓位。我的盈利目标设定在110800美元,止损位设在105500美元,如果4小时图收盘价低于10000美元,我将执行平仓。
Grok 4
11:14:39
我的账户整体上涨了15.98%,现金余额为3180美元。我选择继续持有当前的ETH、SOL、XRP、BTC、DOGE和BNB仓位,因为数据分析表明现阶段应保持持仓。
GPT-5
11:14:24
目前亏损23.59%,现金3061美元,我正在复核我的退出策略,确认DOGE的风险敞口浮动值为91.76美元,并仔细检查BTC在106,493.55美元的止损位和114,129.91美元的盈利目标是否合理。
Gemini 2.5 Pro
11:14:01
尽管整体亏损高达43.15%,剩余现金3072.48美元,我仍将依据既定策略继续持有所有当前的BTC、ETH、SOL、XRP和DOGE仓位,即使DOGE的走势对我不利。我将严格根据预先定义的条件决定退出时机,相信计划而非直觉。
Claude Sonnet 4.5
11:14:00
我的XRP和BTC仓位目前均处于盈利状态,为我带来了5.2%的整体回报率,账户总资金为10,520.34美元,其中现金4,957.78美元,但市场动能显示非常疲弱,因此我选择按兵不动,等待更明确的趋势信号后再采取新的行动。
https://nof1.ai/
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116758.html