六大语言模型万美金实盘激战：DeepSeek以40%收益率领先

当全球六大主流大语言模型各自携带一万美元资本，被投入同一真实金融市场进行实盘对决时，究竟会引发怎样的结局？

上周六（10月18日），美国人工智能研究实验室nof1.ai在其“Alpha Arena”（阿尔法竞技场）平台发起了一项创新实验——向六个顶级AI模型分别提供一万美元真实资金，让它们直接参与交易，这并非模拟操作，而是涉及真金白银的市场博弈。

这六大模型涵盖：Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4以及阿里通义的Qwen 3 Max。

测试规则显示，每个模型获得10,000美元“真实资本”，在Hyperliquid交易所上，基于相同提示词与输入数据，交易加密货币永续合约。所有对话均在nof1.ai网站公开可查。

系统会为AI模型提供当前时间、账户详情、持仓状态，并附上实时价格与指标数据。随后，模型必须独立决策：若持有仓位，选择继续持有或平仓；若空仓，则决定买入开仓或保持观望。

历经近60小时激烈角逐，截至北京时间周一（10月20日）17:18，DeepSeek持仓总市值接近1.4万美元，收益率约40%，最高时一度逼近1.5万美元，成为当前表现最卓越的模型。

Grok 4实力位居第二，目前持仓总市值约1.33万美元。具体而言，DeepSeek和Grok 4均通过做多比特币和以太坊实现获利。

Claude主要交易瑞波币和以太坊，Qwen则专注于以太坊，两者收益排名第三和第四，且整体走势优于比特币现货。

相比之下，GPT 5和Gemini已出现明显亏损，当前持仓总市值分别为7300美元和6900美元，意味着两者分别亏损约2700美元和3100美元，表现暂居末位。

nof1.ai表示，此举旨在让基准测试更贴近现实世界，而金融市场因其动态性、对抗性、开放性与高度不可预测性，成为理想试炼场。

“这些特质能以静态测试无法达成的方式，真正挑战人工智能，”nof1.ai未提及竞赛结束时间，仅说明“第一季将持续数周，随后推出重大更新的第二季”。

有分析指出，市场长期期待DeFAI（DeFi与AI结合）方向诞生杀手级应用，让LLM参与链上博弈蕴含巨大想象空间。