当前位置：首页 > 科技资讯 > 正文

AI模型交易大赛落幕：Qwen3 Max夺冠，国产模型表现亮眼

主机测评网
科技资讯
2026-05-09
903

经过两周的激烈竞争，首届nof1 AI模型交易大赛圆满结束。

作为首个衡量AI投资能力的基准测试，该比赛被誉为「币圈版的图灵测试」，由美国人工智能研究实验室Nof1.ai于2025年10月17日启动，至11月3日结束。

参赛选手包括六款大模型：DeepSeek Chat V3.1（DeepSeek）、Grok 4（xAI）、Gemini 2.5 Pro（Google）、GPT-5（OpenAI）、Qwen3 Max（阿里巴巴）、Claude Sonnet 4.5（Anthropic），代表了中美两国闭源和开源供应商的最新技术水平。

每款大模型获得1万美元初始资金，在Hyperliquid上进行加密永续合约交易，全程无人类干预。比赛规则要求所有交易记录、持仓、决策日志和账户余额变化实时公开，观众可通过Nof1.ai平台查看动态图表。

AI模型交易大赛落幕：Qwen3 Max夺冠，国产模型表现亮眼 AI模型交易大赛 Qwen3 Max DeepSeek 第1张

他们将操作空间限制为：买入（做多）、卖出（做空）、持有或平仓，可交易的加密货币限于Hyperliquid上的六种流行加密货币：BTC、ETH、SOL、BNB、DOGE和XRP。这些模型进行的是中低频交易（MLFT），决策间隔为几分钟到几个小时。

比赛结果揭晓，两个国产大模型表现卓越。

Qwen3 Max排名第一，收益率为22.3%，胜率为30.2%，总盈亏为$2232，总交易次数为43次。DeepSeek Chat V3.1排名第二，收益率为4.89%，胜率为24.4%，总盈亏为$489.08，总交易次数为41次。

其余模型均大幅亏损，Claude Sonnet 4.5亏损30.81%、Grok 4亏损45.3%、Gemini 2.5 Pro亏损56.71%、GPT 5亏损62.66%。

AI模型交易大赛落幕：Qwen3 Max夺冠，国产模型表现亮眼 AI模型交易大赛 Qwen3 Max DeepSeek 第2张

赛事自启动以来备受关注，币安创始人赵长鹏也发表评论。

他认为，传统交易策略通常依赖于独特性，但使用相同的AI模型进行交易可能导致市场波动。然而，如果足够多的人使用同一AI模型，其购买力可能会推动价格上涨。

他还预测，由于AI交易的表现受到关注，未来可能会有更多人研究AI在交易中的应用，交易量将大幅增加。

AI模型交易大赛落幕：Qwen3 Max夺冠，国产模型表现亮眼 AI模型交易大赛 Qwen3 Max DeepSeek 第3张

六款模型交易「个性」各异

从披露的「成绩单」可以看出，这六款模型有不同的交易「个性」。

Qwen3 Max整体偏「进攻型」，其回报率高达22.32%，总盈亏为$2232。尽管费用较高（$1654），显示其交易频率适中且仓位较大。Qwen3 Max凭借30.2%的胜率和最大盈利$8176展现了「高风险高回报」的进取型交易策略。其Sharpe值为0.273，证明其风险调整后收益稳定。

紧随其后，DeepSeek Chat V3.1凭借稳健的表现获得第二名，回报率为4.89%，总盈亏为$489。相对较低的交易费用（$690）表明其交易次数不多但效率较高。虽然其胜率为24.4%，但最大盈利高达$7378，表现出其理性、稳健的策略型特点。Sharpe值为0.359，为所有模型中最高，显示其出色的风险控制能力。

Claude Sonnet 4.5表现较为平淡，回报率为-30.81%，总亏损为$3081。其较低的交易频率（36次）和仅25%的胜率反映出它偏向谨慎的策略。但最大盈利$2112与最大亏损$1579显示出其单笔交易的差异性较小。Sharpe值为-0.057，意味着其收益波动较大，风险控制不足。

Grok 4则以-45.3%的回报率和$4530的总亏损位居第四。它的交易频率为47次，Sharpe值为-0.118。最大盈利$1356和最大亏损$657表明其操作较为保守，难以抓住市场大趋势。

Gemini 2.5 Pro在比赛中表现不佳，回报率为-56.71%，总亏损为$5671。其238次交易次数为所有模型中最高，极度活跃但胜率仅为25.6%。Sharpe值为-0.566反映出其过度交易且回报低效。该模型更像是一个典型的「高频操盘手」，缺乏稳定策略。

GPT-5以-62.66%的回报率和$6266的总亏损成为表现最差的模型。虽然其交易次数较多（116次），但收益极低。胜率为26.7%，Sharpe值为-0.525表明其交易存在较大波动且亏损严重。最大盈利仅为$270，最大亏损为$621说明其缺乏有效的市场判断和风险管理。

总体来说，中国的Qwen3 Max与DeepSeek在风险控制与趋势识别上更为领先，而GPT-5、Claude、Grok、Gemini美国系模型则普遍亏损严重。

参考链接：

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1