当前位置：首页 > 科技资讯 > 正文

首届nof1 AI模型交易大赛落幕，国产模型包揽前二

主机测评网
科技资讯
2026-01-19
231

经过两周的激烈角逐，首届 nof1 AI 模型交易大赛圆满结束。

这是首个专为评估 AI 投资能力而设计的基准测试，被誉为「币圈图灵测试」，由美国人工智能研究实验室 Nof1.ai 于 2025 年 10 月 17 日正式启动，并于 11 月 3 日收官。

参赛的六款大模型包括 DeepSeek Chat V3.1（DeepSeek）、Grok 4（xAI）、Gemini 2.5 Pro（Google）、GPT-5（OpenAI）、Qwen3 Max（阿里巴巴）和 Claude Sonnet 4.5（Anthropic）。

这些模型代表了中美两国闭源和开源供应商的最新技术水平。除 Qwen3-Max 外，所有模型均采用最高可配置的推理设置，且报告的是开箱即用的性能，未进行任何针对特定任务的微调。

每款大模型获得 1 万美元初始资金，使用相同的市场数据和技术指标，自主在 Hyperliquid 上进行加密永续合约交易，全程无人类干预，最终评估哪些模型能够在投资上获得最优回报。

首届nof1 AI模型交易大赛落幕，国产模型包揽前二 AI交易大赛加密货币交易大模型性能投资回报第1张

操作空间被限制为：买入（做多）、卖出（做空）、持有或平仓。可交易的加密货币限于 Hyperliquid 上的六种流行币种：BTC、ETH、SOL、BNB、DOGE 和 XRP。选择加密资产的三个实际原因是：市场全天候开放，能够持续观察决策；数据丰富且易于获取，支持分析和透明审计；Hyperliquid 快速、可靠且易集成，同时加密货币是全球性的，不依赖特定国家或公司。这些模型进行的是中低频交易（MLFT），决策间隔为几分钟到几小时，而非微秒级别。

按照比赛规则，所有交易记录、持仓、决策日志和账户余额变化实时公开，观众可通过 Nof1.ai 平台查看动态图表，透明度极高。

比赛结果已公布，两个国产大模型取得了优异战绩。

Qwen3 Max 排名第一，收益率为 22.3%，胜率为 30.2%，总盈亏为 $2232，总交易次数为 43 次。DeepSeek Chat V3.1 排名第二，收益率为 4.89%，胜率为 24.4%，总盈亏为 $489.08，总交易次数为 41 次。

其余模型均大幅亏损，Claude Sonnet 4.5 亏损 30.81%、Grok 4 亏损 45.3%、Gemini 2.5 Pro 亏损 56.71%、GPT 5 亏损 62.66%。

首届nof1 AI模型交易大赛落幕，国产模型包揽前二 AI交易大赛加密货币交易大模型性能投资回报第2张

赛事自启动以来引发广泛关注，连币安创始人赵长鹏也公开评论。

他认为，传统上交易策略通常依赖于独特性，最好是别人没有的策略，这样才能获得优势。如果所有人都用相同的 AI 模型进行交易，可能会导致大家在同一时刻买入或卖出，影响市场动态。

不过，如果足够多的人使用同一 AI 模型，它的购买力可能会通过市场需求本身推动价格上涨。

他还预测，由于 AI 交易的表现引起了关注，未来可能会有更多人开始研究 AI 在交易中的应用，预计交易量会大幅增加。

首届nof1 AI模型交易大赛落幕，国产模型包揽前二 AI交易大赛加密货币交易大模型性能投资回报第3张

六款模型交易「个性」各异

从披露的「成绩单」可以看出，这六款模型展现出不同的交易「个性」。

Qwen3 Max 整体偏「进攻型」，回报率高达 22.32%，总盈亏为 2232 美元。尽管费用较高（1654 美元），显示其交易频率适中且仓位较大，但凭借 30.2% 的胜率和最大盈利 8176 美元，体现了「高风险高回报」的进取型策略。其 Sharpe 值为 0.273，证明风险调整后收益稳定。

DeepSeek Chat V3.1 以稳健表现获得第二名，回报率为 4.89%，总盈亏为 489 美元。相对较低的交易费用（690 美元）表明其交易次数不多但效率较高。虽然胜率为 24.4%，但最大盈利高达 7378 美元，展现出理性、稳健的特点。Sharpe 值为 0.359，为所有模型中最高，显示出色的风险控制能力。

Claude Sonnet 4.5 表现平淡，回报率为 -30.81%，总亏损为 3081 美元。较低的交易频率（36 次）和仅 25% 的胜率反映其谨慎策略，但最大盈利 2112 美元与最大亏损 1579 美元显示单笔交易差异较小。Sharpe 值为 -0.057，意味着收益波动较大，风险控制不足。

Grok 4 回报率为 -45.3%，总亏损为 4530 美元。交易频率为 47 次，Sharpe 值为 -0.118，最大盈利 1356 美元和最大亏损 657 美元表明操作保守，难以抓住市场大趋势。

Gemini 2.5 Pro 表现不佳，回报率为 -56.71%，总亏损为 5671 美元。其 238 次交易次数为所有模型中最高，极度活跃，但胜率仅为 25.6%，Sharpe 值为 -0.566，反映出过度交易，回报低效。这个模型类似「高频操盘手」，缺乏稳定策略。

GPT-5 回报率为 -62.66%，总亏损为 6266 美元，成为表现最差模型。116 次交易次数较多，但收益极低。胜率为 26.7%，Sharpe 值为 -0.525，表明交易波动大且亏损严重。最大盈利仅 270 美元，最大亏损 621 美元，说明缺乏有效市场判断和风险管理。

总体来看，来自中国的 Qwen3 Max 与 DeepSeek 在风险控制与趋势识别上更为领先，而 GPT-5、Claude、Grok、Gemini 等美国系模型则普遍亏损严重。

参考链接：

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1