当前位置:首页 > 科技资讯 > 正文

首届nof1 AI模型交易大赛落幕,国产模型包揽前二

经过两周的激烈角逐,首届 nof1 AI 模型交易大赛圆满结束。

这是首个专为评估 AI 投资能力而设计的基准测试,被誉为「币圈图灵测试」,由美国人工智能研究实验室 Nof1.ai 于 2025 年 10 月 17 日正式启动,并于 11 月 3 日收官。

参赛的六款大模型包括 DeepSeek Chat V3.1(DeepSeek)、Grok 4(xAI)、Gemini 2.5 Pro(Google)、GPT-5(OpenAI)、Qwen3 Max(阿里巴巴)和 Claude Sonnet 4.5(Anthropic)。

这些模型代表了中美两国闭源和开源供应商的最新技术水平。除 Qwen3-Max 外,所有模型均采用最高可配置的推理设置,且报告的是开箱即用的性能,未进行任何针对特定任务的微调。

每款大模型获得 1 万美元初始资金,使用相同的市场数据和技术指标,自主在 Hyperliquid 上进行加密永续合约交易,全程无人类干预,最终评估哪些模型能够在投资上获得最优回报。

首届nof1 AI模型交易大赛落幕,国产模型包揽前二 AI交易大赛  加密货币交易 大模型性能 投资回报 第1张

操作空间被限制为:买入(做多)、卖出(做空)、持有或平仓。可交易的加密货币限于 Hyperliquid 上的六种流行币种:BTC、ETH、SOL、BNB、DOGE 和 XRP。选择加密资产的三个实际原因是:市场全天候开放,能够持续观察决策;数据丰富且易于获取,支持分析和透明审计;Hyperliquid 快速、可靠且易集成,同时加密货币是全球性的,不依赖特定国家或公司。这些模型进行的是中低频交易(MLFT),决策间隔为几分钟到几小时,而非微秒级别。

按照比赛规则,所有交易记录、持仓、决策日志和账户余额变化实时公开,观众可通过 Nof1.ai 平台查看动态图表,透明度极高。

比赛结果已公布,两个国产大模型取得了优异战绩。

Qwen3 Max 排名第一,收益率为 22.3%,胜率为 30.2%,总盈亏为 $2232,总交易次数为 43 次。DeepSeek Chat V3.1 排名第二,收益率为 4.89%,胜率为 24.4%,总盈亏为 $489.08,总交易次数为 41 次。

其余模型均大幅亏损,Claude Sonnet 4.5 亏损 30.81%、Grok 4 亏损 45.3%、Gemini 2.5 Pro 亏损 56.71%、GPT 5 亏损 62.66%。

首届nof1 AI模型交易大赛落幕,国产模型包揽前二 AI交易大赛  加密货币交易 大模型性能 投资回报 第2张

赛事自启动以来引发广泛关注,连币安创始人赵长鹏也公开评论。

他认为,传统上交易策略通常依赖于独特性,最好是别人没有的策略,这样才能获得优势。如果所有人都用相同的 AI 模型进行交易,可能会导致大家在同一时刻买入或卖出,影响市场动态。

不过,如果足够多的人使用同一 AI 模型,它的购买力可能会通过市场需求本身推动价格上涨。

他还预测,由于 AI 交易的表现引起了关注,未来可能会有更多人开始研究 AI 在交易中的应用,预计交易量会大幅增加。

首届nof1 AI模型交易大赛落幕,国产模型包揽前二 AI交易大赛  加密货币交易 大模型性能 投资回报 第3张

六款模型交易「个性」各异

从披露的「成绩单」可以看出,这六款模型展现出不同的交易「个性」。

Qwen3 Max 整体偏「进攻型」,回报率高达 22.32%,总盈亏为 2232 美元。尽管费用较高(1654 美元),显示其交易频率适中且仓位较大,但凭借 30.2% 的胜率和最大盈利 8176 美元,体现了「高风险高回报」的进取型策略。其 Sharpe 值为 0.273,证明风险调整后收益稳定。

DeepSeek Chat V3.1 以稳健表现获得第二名,回报率为 4.89%,总盈亏为 489 美元。相对较低的交易费用(690 美元)表明其交易次数不多但效率较高。虽然胜率为 24.4%,但最大盈利高达 7378 美元,展现出理性、稳健的特点。Sharpe 值为 0.359,为所有模型中最高,显示出色的风险控制能力。

Claude Sonnet 4.5 表现平淡,回报率为 -30.81%,总亏损为 3081 美元。较低的交易频率(36 次)和仅 25% 的胜率反映其谨慎策略,但最大盈利 2112 美元与最大亏损 1579 美元显示单笔交易差异较小。Sharpe 值为 -0.057,意味着收益波动较大,风险控制不足。

Grok 4 回报率为 -45.3%,总亏损为 4530 美元。交易频率为 47 次,Sharpe 值为 -0.118,最大盈利 1356 美元和最大亏损 657 美元表明操作保守,难以抓住市场大趋势。

Gemini 2.5 Pro 表现不佳,回报率为 -56.71%,总亏损为 5671 美元。其 238 次交易次数为所有模型中最高,极度活跃,但胜率仅为 25.6%,Sharpe 值为 -0.566,反映出过度交易,回报低效。这个模型类似「高频操盘手」,缺乏稳定策略。

GPT-5 回报率为 -62.66%,总亏损为 6266 美元,成为表现最差模型。116 次交易次数较多,但收益极低。胜率为 26.7%,Sharpe 值为 -0.525,表明交易波动大且亏损严重。最大盈利仅 270 美元,最大亏损 621 美元,说明缺乏有效市场判断和风险管理。

总体来看,来自中国的 Qwen3 Max 与 DeepSeek 在风险控制与趋势识别上更为领先,而 GPT-5、Claude、Grok、Gemini 等美国系模型则普遍亏损严重。

参考链接:

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1