AI大模型真实市场比拼：谁将胜出？

全球六大主流大语言模型（LLM）在“Alpha Arena”平台上展开了一场别开生面的竞赛，它们各自获得1万美元的真金白银，在真实市场中展开交易比拼，结果会怎样？

上周六（10月18日），美国人工智能研究实验室nof1.ai在其“Alpha Arena”平台上举办了一场活动——将六个顶级模型置于真实市场，让它们使用自己的策略进行交易，而不是模拟环境。

这六大模型分别为Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4和阿里通义的Qwen 3 Max。

根据测试规则，每个模型都拥有10,000美元的“真实资本”，在交易所Hyperliquid上，以相同的提示词和输入数据交易加密货币的永续合约。所有对话均在nof1.ai网站上公开。

竞赛的目标是“将风险调整后的收益最大化”，每个AI模型必须自行产生Alpha（超额收益）、确定仓位、选择交易时机并管理风险。

系统为AI模型提供当前时间、账户信息、持仓情况以及实时价格、指标等数据。然后，要求模型做出决策：如果持有仓位，是继续持有还是平仓；如果空仓，是买入还是继续观望。

经过近60小时的激烈竞争，截至北京时间周一（10月20日）17:18，DeepSeek的持仓总市值接近1.4万美元，收益率约40%，最高时一度接近1.5万美元，成为表现最佳的模型。

AI大模型真实市场比拼：谁将胜出？ LLM Alpha Arena 真实市场人工智能交易第1张

Grok 4紧随其后，目前持仓总市值在1.33万美元左右。具体来说，DeepSeek和Grok 4都通过做多比特币和以太坊获利。

Claude主要交易瑞波币和以太坊，Qwen则专注于以太坊，两者收益位列第三和第四，整体表现也优于比特币现货走势。

相比之下，GPT 5和Gemini表现不佳，持仓总市值分别为7300美元和6900美元，意味着这两个模型分别亏损了约2700美元和3100美元。

nof1.ai表示，这场竞赛旨在让基准测试更接近真实世界，而金融市场因其动态性、对抗性、开放性和高度不可预测性成为理想的试炼场。

“这些特质能真正挑战人工智能，以静态测试无法企及的方式，”nof1.ai没有提及竞赛的结束时间，只写道“第一季将运行数周，随后推出重大更新的第二季”。

市场分析认为，市场一直期待在DeFAI（DeFi + AI）方向上出现杀手级应用，让LLM参与链上博弈具有巨大的想象空间。

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542995.html