当前位置：首页 > 科技资讯 > 正文

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底

主机测评网
科技资讯
2026-01-11
912

当全球六大顶尖大型语言模型各自获得一万美元启动资金，被投入同一真实交易市场展开实盘较量时，会碰撞出怎样的火花？这场激战自18日拉开帷幕，截至目前，DeepSeek V3.1已实现超过3500美元的盈利，稳居榜首，Grok 4则以稳健表现位列第二。相比之下，Gemini 2.5 Pro成为亏损最为严重的模型，表现令人大跌眼镜。

倘若赋予每个顶级人工智能模型一万美元真实资本，让它们投身股市博弈，谁能够脱颖而出，成为AI界的投资传奇？

近期，由nof1.ai策划并推出的创新实验——Alpha Arena，正是这样一场备受瞩目的「诸神之战」。

该竞赛将当今最具实力的几款大模型，全部置于同一个真实且瞬息万变的交易环境中进行考验。

参赛阵容囊括了OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet，以及xAI的Grok 4、阿里巴巴的Qwen3 Max和深度求索的DeepSeek V3.1 Chat。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第1张

每个模型均获得了10000美元的相同初始资本，并接收完全一致的市场实时数据与交易指令。

实验设定的提示词相对简洁，更像是一次开放式的「开卷测试」。

首先，系统会向AI告知当前时间、账户资产详情、持仓状况，并附上大量的实时价格、技术指标（如MACD、RSI）等数据流。
随后，要求模型基于这些信息做出投资决策：若持有仓位，是继续持有还是平仓了结；若处于空仓状态，是选择买入建仓还是继续观望。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第2张

不得不承认，金融市场的风云变幻确实极为迅速。

而在交易实战这项任务上，DeepSeek展现出了惊人实力，不愧其深厚的量化背景出身。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第3张

10月20日清晨7:30的战况还如下图所示左侧——

DeepSeek V3.1凭借2264美元的盈利额高居第一，Grok 4以2071美元紧随其后位列第二。Claude Sonnet 4.5小幅盈利649美元，Qwen3 Max则微亏416美元。

Gemini 2.5 Pro亏损3542美元，稳坐倒数第一宝座，GPT-5亏损2419美元，排名倒数第二。

然而，仅仅一个半小时后的上午10:00，局势便已演变成下图右侧所示——

DeepSeek V3.1和Grok-4的盈利曲线一路狂泻，Sonnet 4.5也几乎要将先前赚取的利润回吐殆尽。

Qwen3 Max和GPT-5则呈现出止跌回升的态势。

Gemini 2.5 Pro发挥依然“稳定”，相较之前又额外亏损了近800美元。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第4张

顺便一提，下面是13:30时候的样子：

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第5张

DeepSeek V3.1登顶，谷歌OpenAI垫底

模型持仓

上午11:15左右，我们观察了各个模型的实时持仓情况。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第6张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第7张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第8张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第9张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第10张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第11张

此时，DeepSeek和Grok已经止住跌势，重新开启上涨模式。

Sonnet 4.5和Qwen3 Max也都成功扭亏为盈，实现了正收益。

Gemini 2.5 Pro虽有小幅回升，但幅度有限。GPT-5的表现则一直较为平稳，自20号起就维持在盈亏平衡点附近窄幅震荡。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第12张

11:45时，除GPT-5外，所有模型都迎来了一波普涨行情。

没错，Gemini 2.5 Pro终于开始赚钱了！（尽管只是相较于几分钟前略有改善）

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第13张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第14张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第15张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第16张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第17张

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第18张

趋势回顾

DeepSeek V3.1 Chat和Grok-4的收益曲线走势颇为相似，推测其持仓结构可能接近。它们在初始几小时经历小幅亏损后，迅速反弹并一路高歌猛进。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第19张

Claude Sonnet 4.5在前两日的表现相对稳定，虽有盈利但幅度不大。19日晚间曾迎来一个小高峰，可惜在20日清晨又回落至原点附近。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第20张

Qwen3 Max开局亏损一度最大，但随后便稳住了阵脚，即便在19日下午市场波动加剧时，其账户净值也未见明显起伏。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第21张

GPT-5和Gemini 2.5 Pro的曲线在初期也高度雷同。但与DeepSeek和Grok的路径截然相反，这两位在起步阶段先是一波大涨，随后便急转直下，在亏损线与盈亏平衡线之间持续徘徊。

19日下午，转折点悄然出现。此刻正是DeepSeek和Grok-4开始强势拉升的时间，而GPT-5和Gemini 2.5 Pro却开启了一路下跌模式。

20日凌晨，GPT-5及时调整策略，稳住了下跌趋势，而Gemini 2.5 Pro则依旧颓势不改，亏损持续扩大。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第22张

值得玩味的是，临近20日中午时分，除GPT-5外，所有模型均迎来一波集体上涨。

其中，DeepSeek V3.1 Chat和Grok-4迅速借此东风，不断刷新盈利历史高点；Qwen3 Max也凭借这波势头，首次获得了持续且可观的收益；就连Gemini 2.5 Pro也开始了缓慢的回升之旅。

交易历史

截至10日12:20，各模型的交易频率差异悬殊：Gemini进行了45次交易，GPT为10次，Qwen为6次，DeepSeek为5次，Claude为3次，Grok仅有1次。

DeepSeek交易次数适中，但其深厚的量化基因使其收益稳居第一。

Grok-4交易次数最为谨慎，仅操作1次，却能紧紧咬住DeepSeek，位列第二。

而凭借高达45次交易记录，荣膺「微操大师」称号的Gemini 2.5 Pro，恰恰也是亏损最为惨重的那一位。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第23张

不玩游戏，不搞评测，直接开盘！

长久以来，人工智能的能力一直由各类静态基准来度量。

ImageNet、MMLU以及无数的性能排行榜告诉我们，哪个模型在「理解」图像、逻辑或语言方面更为出色。

然而，所有这些测试都存在一个共同的局限性——它们都在一个无菌、可预测的模拟环境中进行。

真实市场则与此截然相反。

金融市场堪称终极的世界建模引擎，也是唯一一个会随着AI智能提升而同步增加难度的试炼场。

它们波动不定、即时反应、惩罚错误、奖励正确。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第24张

Alpha Arena主页上赫然写着一句话：市场才是智能的终极试金石

它是一个由海量信息与人类情感共同构筑的鲜活生态系统。

十年前，DeepMind为人工智能研究带来了革命性的范式转变。

他们的核心洞见在于：「游戏」将成为推动前沿AI飞速发展的绝佳训练环境。

正如前文所探讨的，Nof1坚信金融市场是下一个AI时代更为优越的训练与测试舞台。

毕竟，如果AI旨在现实世界中运行，它就必须学会在那些不会为了适应「反向传播」而暂停的、持续流动的环境中生存与决策。

在此，模型可以借助开放式学习、大规模强化学习等先进技术，获取近乎无限的数据来锤炼自身，从而应对市场这个复杂领域的「终极挑战」。

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第25张

在Alpha Arena中，不存在绝对正确的预设标签，只有不断演变的概率分布。

一个模型的成功与否，取决于它解读市场波动的速度、权衡风险收益的精度，以及敢于承认并修正错误的谦逊程度。

这将金融交易升华成了一种新型的图灵测试：

考验的核心不再是「机器能否思考」，而是「它能否在充满不确定性的混沌中持续生存并获利」。

附录：模型对话节选

全球六大AI大模型实盘金融对决：DeepSeek V3.1盈利领跑，Gemini 2.5 Pro惨淡垫底 AI实盘交易大模型量化对决金融市场测试 DeepSeek盈利领先第26张

DeepSeek Chat V3.1