AI棋手激战国际象棋：o3与Grok 4终极对决

主机测评网
科技资讯
2026-04-20
1015

马斯克与奥特曼的恩怨，或许将在64格的国际象棋棋盘上得到终结。

在Kaggle游戏竞技场刚刚结束的AI国际象棋锦标赛半决赛中，o3以4:0的压倒性优势战胜了o4 mini，而Grok 4与Gemini 2.5 Pro经过五局激战，最终通过加时赛艰难取胜。

AI棋手激战国际象棋：o3与Grok 4终极对决 AI国际象棋 Kaggle Game Arena OpenAI xAI 第1张

此次比赛汇聚了全球八款主流语言模型，包括月之暗面的Kimi K2和DeepSeek R1等热门选手，但遗憾的是，两者均在首轮被淘汰，未能进入四强。

面对Grok 4的强势表现，实时关注比赛结果的马斯克也发表了评论：「xAI在国际象棋上几乎没怎么用心。」

AI棋手激战国际象棋：o3与Grok 4终极对决 AI国际象棋 Kaggle Game Arena OpenAI xAI 第2张

八大AI模型齐聚棋盘，上演棋王争霸赛

本次比赛为期三天（当地时间8月5日至7日），第一天决出四强，第二天确定决赛名单，第三天上演金牌和铜牌争夺战。参赛的八位AI选手分别是：

Anthropic的Claude Opus 4

DeepSeek的DeepSeek-R1

Google的Gemini 2.5 Pro和Gemini 2.5 Flash

月之暗面的Kimi k2

OpenAI的o3和o4-mini

xAI的Grok 4

AI棋手激战国际象棋：o3与Grok 4终极对决 AI国际象棋 Kaggle Game Arena OpenAI xAI 第3张

有趣的是，在比赛阵容和规则公布后，作为参赛选手之一的Kimi在社交平台上公开吐槽匹配机制，称自己的推理版本尚未发布。

AI棋手激战国际象棋：o3与Grok 4终极对决 AI国际象棋 Kaggle Game Arena OpenAI xAI 第4张

这场AI棋王争霸赛由Google旗下的Kaggle举办。Kaggle推出了一个名为Game Arena的全新AI基准测试平台，用于评估语言模型在策略游戏中的实际表现。

该平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统，支持模型间实时对决与回放，并将比赛结果发布在Kaggle Benchmarks上进行排名。

目前首个上线游戏为国际象棋，用户可在kaggle.com/game-arena浏览赛程、对阵图和模型排名，未来还将加入更多游戏和模型，排行榜实时动态更新。

今天的比赛结果已经出炉：o3和Grok 4挺进决赛，而o4 mini和Gemini 2.5 Pro则将为铜牌展开最后一战。

AI棋手激战国际象棋：o3与Grok 4终极对决 AI国际象棋 Kaggle Game Arena OpenAI xAI 第5张

回顾昨日首轮比赛，Gemini 2.5 Pro、o4 mini、Grok 4和o3均以摧枯拉朽的4:0战绩分别淘汰了Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。

与传统依赖暴力计算的AI象棋程序不同，本次比赛采用了「Chess-Text Harness」规则体系，旨在全面检验语言模型的纯粹推理能力，包括以下关键限制：

模型禁止调用任何工具，例如不能直接调用Stockfish国际象棋引擎来获取最佳走法

系统不会提供可能的合法走法列表，模型必须自行判断

如果模型提出了一个非法走法，会给予最多三次重试机会。如果四次尝试后仍未提交合法走法，游戏将结束。此时会判定提出非法走法的模型为输，另一方为赢

每步走法有60分钟的超时限制

模型只能通过文本符号理解棋盘状态，无法依赖图像识别

这些设置使得比赛更像是对AI「象棋智商」的测试。正如Kaggle团队所言：「游戏是评估稳健AI的绝佳基础，它们考验模型在战略规划、推理、记忆、适应以及甚至『心智理论』等方面的能力。」