全球六大主流大语言模型(LLM)在“Alpha Arena”平台上展开了一场别开生面的竞赛,它们各自获得1万美元的真金白银,在真实市场中展开交易比拼,结果会怎样?
上周六(10月18日),美国人工智能研究实验室nof1.ai在其“Alpha Arena”平台上举办了一场活动——将六个顶级模型置于真实市场,让它们使用自己的策略进行交易,而不是模拟环境。
这六大模型分别为Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通义的Qwen 3 Max。
根据测试规则,每个模型都拥有10,000美元的“真实资本”,在交易所Hyperliquid上,以相同的提示词和输入数据交易加密货币的永续合约。所有对话均在nof1.ai网站上公开。
竞赛的目标是“将风险调整后的收益最大化”,每个AI模型必须自行产生Alpha(超额收益)、确定仓位、选择交易时机并管理风险。
系统为AI模型提供当前时间、账户信息、持仓情况以及实时价格、指标等数据。然后,要求模型做出决策:如果持有仓位,是继续持有还是平仓;如果空仓,是买入还是继续观望。
经过近60小时的激烈竞争,截至北京时间周一(10月20日)17:18,DeepSeek的持仓总市值接近1.4万美元,收益率约40%,最高时一度接近1.5万美元,成为表现最佳的模型。
Grok 4紧随其后,目前持仓总市值在1.33万美元左右。具体来说,DeepSeek和Grok 4都通过做多比特币和以太坊获利。
Claude主要交易瑞波币和以太坊,Qwen则专注于以太坊,两者收益位列第三和第四,整体表现也优于比特币现货走势。
相比之下,GPT 5和Gemini表现不佳,持仓总市值分别为7300美元和6900美元,意味着这两个模型分别亏损了约2700美元和3100美元。
nof1.ai表示,这场竞赛旨在让基准测试更接近真实世界,而金融市场因其动态性、对抗性、开放性和高度不可预测性成为理想的试炼场。
“这些特质能真正挑战人工智能,以静态测试无法企及的方式,”nof1.ai没有提及竞赛的结束时间,只写道“第一季将运行数周,随后推出重大更新的第二季”。
市场分析认为,市场一直期待在DeFAI(DeFi + AI)方向上出现杀手级应用,让LLM参与链上博弈具有巨大的想象空间。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542995.html