经过两周的激烈竞争,首届nof1 AI模型交易大赛圆满结束。
作为首个衡量AI投资能力的基准测试,该比赛被誉为「币圈版的图灵测试」,由美国人工智能研究实验室Nof1.ai于2025年10月17日启动,至11月3日结束。
参赛选手包括六款大模型:DeepSeek Chat V3.1(DeepSeek)、Grok 4(xAI)、Gemini 2.5 Pro(Google)、GPT-5(OpenAI)、Qwen3 Max(阿里巴巴)、Claude Sonnet 4.5(Anthropic),代表了中美两国闭源和开源供应商的最新技术水平。
每款大模型获得1万美元初始资金,在Hyperliquid上进行加密永续合约交易,全程无人类干预。比赛规则要求所有交易记录、持仓、决策日志和账户余额变化实时公开,观众可通过Nof1.ai平台查看动态图表。
他们将操作空间限制为:买入(做多)、卖出(做空)、持有或平仓,可交易的加密货币限于Hyperliquid上的六种流行加密货币:BTC、ETH、SOL、BNB、DOGE和XRP。这些模型进行的是中低频交易(MLFT),决策间隔为几分钟到几个小时。
比赛结果揭晓,两个国产大模型表现卓越。
Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,总盈亏为$2232,总交易次数为43次。DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,总盈亏为$489.08,总交易次数为41次。
其余模型均大幅亏损,Claude Sonnet 4.5亏损30.81%、Grok 4亏损45.3%、Gemini 2.5 Pro亏损56.71%、GPT 5亏损62.66%。
赛事自启动以来备受关注,币安创始人赵长鹏也发表评论。
他认为,传统交易策略通常依赖于独特性,但使用相同的AI模型进行交易可能导致市场波动。然而,如果足够多的人使用同一AI模型,其购买力可能会推动价格上涨。
他还预测,由于AI交易的表现受到关注,未来可能会有更多人研究AI在交易中的应用,交易量将大幅增加。
从披露的「成绩单」可以看出,这六款模型有不同的交易「个性」。
Qwen3 Max整体偏「进攻型」,其回报率高达22.32%,总盈亏为$2232。尽管费用较高($1654),显示其交易频率适中且仓位较大。Qwen3 Max凭借30.2%的胜率和最大盈利$8176展现了「高风险高回报」的进取型交易策略。其Sharpe值为0.273,证明其风险调整后收益稳定。
紧随其后,DeepSeek Chat V3.1凭借稳健的表现获得第二名,回报率为4.89%,总盈亏为$489。相对较低的交易费用($690)表明其交易次数不多但效率较高。虽然其胜率为24.4%,但最大盈利高达$7378,表现出其理性、稳健的策略型特点。Sharpe值为0.359,为所有模型中最高,显示其出色的风险控制能力。
Claude Sonnet 4.5表现较为平淡,回报率为-30.81%,总亏损为$3081。其较低的交易频率(36次)和仅25%的胜率反映出它偏向谨慎的策略。但最大盈利$2112与最大亏损$1579显示出其单笔交易的差异性较小。Sharpe值为-0.057,意味着其收益波动较大,风险控制不足。
Grok 4则以-45.3%的回报率和$4530的总亏损位居第四。它的交易频率为47次,Sharpe值为-0.118。最大盈利$1356和最大亏损$657表明其操作较为保守,难以抓住市场大趋势。
Gemini 2.5 Pro在比赛中表现不佳,回报率为-56.71%,总亏损为$5671。其238次交易次数为所有模型中最高,极度活跃但胜率仅为25.6%。Sharpe值为-0.566反映出其过度交易且回报低效。该模型更像是一个典型的「高频操盘手」,缺乏稳定策略。
GPT-5以-62.66%的回报率和$6266的总亏损成为表现最差的模型。虽然其交易次数较多(116次),但收益极低。胜率为26.7%,Sharpe值为-0.525表明其交易存在较大波动且亏损严重。最大盈利仅为$270,最大亏损为$621说明其缺乏有效的市场判断和风险管理。
总体来说,中国的Qwen3 Max与DeepSeek在风险控制与趋势识别上更为领先,而GPT-5、Claude、Grok、Gemini美国系模型则普遍亏损严重。
参考链接:
https://nof1.ai/blog/TechPost1本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543892.html