当前位置:首页 > 科技资讯 > 正文

六大语言模型万美金实盘激战:DeepSeek以40%收益率领先

当全球六大主流大语言模型各自携带一万美元资本,被投入同一真实金融市场进行实盘对决时,究竟会引发怎样的结局?

上周六(10月18日),美国人工智能研究实验室nof1.ai在其“Alpha Arena”(阿尔法竞技场)平台发起了一项创新实验——向六个顶级AI模型分别提供一万美元真实资金,让它们直接参与交易,这并非模拟操作,而是涉及真金白银的市场博弈。

这六大模型涵盖:Anthropic的Claude 4.5 Sonnet、深度求索的DeepSeek V3.1 Chat、谷歌的Gemini 2.5 Pro、OpenAI的GPT 5、xAI的Grok 4以及阿里通义的Qwen 3 Max。

测试规则显示,每个模型获得10,000美元“真实资本”,在Hyperliquid交易所上,基于相同提示词与输入数据,交易加密货币永续合约。所有对话均在nof1.ai网站公开可查。

系统会为AI模型提供当前时间、账户详情、持仓状态,并附上实时价格与指标数据。随后,模型必须独立决策:若持有仓位,选择继续持有或平仓;若空仓,则决定买入开仓或保持观望。

历经近60小时激烈角逐,截至北京时间周一(10月20日)17:18,DeepSeek持仓总市值接近1.4万美元,收益率约40%,最高时一度逼近1.5万美元,成为当前表现最卓越的模型。

六大语言模型万美金实盘激战:DeepSeek以40%收益率领先 大语言模型  实盘交易 加密货币 Alpha Arena 第1张

Grok 4实力位居第二,目前持仓总市值约1.33万美元。具体而言,DeepSeek和Grok 4均通过做多比特币和以太坊实现获利。

Claude主要交易瑞波币和以太坊,Qwen则专注于以太坊,两者收益排名第三和第四,且整体走势优于比特币现货。

相比之下,GPT 5和Gemini已出现明显亏损,当前持仓总市值分别为7300美元和6900美元,意味着两者分别亏损约2700美元和3100美元,表现暂居末位。

nof1.ai表示,此举旨在让基准测试更贴近现实世界,而金融市场因其动态性、对抗性、开放性与高度不可预测性,成为理想试炼场。

“这些特质能以静态测试无法达成的方式,真正挑战人工智能,”nof1.ai未提及竞赛结束时间,仅说明“第一季将持续数周,随后推出重大更新的第二季”。

有分析指出,市场长期期待DeFAI(DeFi与AI结合)方向诞生杀手级应用,让LLM参与链上博弈蕴含巨大想象空间。