当前位置:首页 > 科技资讯 > 正文

大模型国际象棋对抗赛:Grok 4 脱颖而出

从当前战局来看,Grok 4 无疑是最受瞩目的夺冠热门。

在棋艺比拼上,哪种模型能称雄?为了揭晓答案,谷歌近期举办了首届大模型国际象棋对抗赛。

这场赛事历时三天,参赛者阵容豪华,包括:

o4-mini(OpenAI)

DeepSeek-R1(DeepSeek)

Kimi K2 Instruct(月之暗面)

o3(OpenAI)

Gemini 2.5 Pro(谷歌)

Claude Opus 4(Anthropic)

Grok 4(xAI)

Gemini 2.5 Flash(谷歌)

最新战报显示,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩,分别击败了 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,强势晋级半决赛。

以下是模型对阵图。

大模型国际象棋对抗赛:Grok 4 脱颖而出 大模型 国际象棋 对抗赛 Grok 第1张

比赛在名为「Kaggle Game Arena」的平台上火热进行。这是 Kaggle 公司的新项目,旨在突破常规基准测试框架,探索如 Gemini、DeepSeek 等大型语言模型(LLM)在动态竞争环境中的表现。

在昨日报道中,我们已详述比赛规则,例如禁止模型调用 Stockfish 等国际象棋引擎。(详情请参见《谷歌发起挑战,DeepSeek、Kimi 等纷纷应战,首届大模型对抗赛即将开启》)

以下是部分对战详情:

Kimi k2 对阵 o3:0-4

Kimi k2 与 o3 的对局迅速结束,四局比赛均在八步棋内完成。由于 Kimi k2 连续四次未能找到合法着法而败北,o3 取得完胜。

需注意的是,与 o3 对战的 Kimi K2 Instruct 是非推理模型,不敌 o3 在预料之中。

尽管 Kimi k2 未能获胜,但比赛为我们提供了宝贵观察。从 Kimi k2 的走棋注释来看,它在开局阶段能遵循棋谱理论行棋。然而,一旦脱离熟悉开局理论,技术问题便显现 —— 而对 Kimi k2 而言,转折点来得较早。

大模型国际象棋对抗赛:Grok 4 脱颖而出 大模型 国际象棋 对抗赛 Grok 第2张

在这场对局中,Kimi k2 完全识别了棋盘局势,却仍无法给出合法着法,似乎对棋子走法规则出现记忆混乱。

DeepSeek R1 对阵 o4-mini:0-4

OpenAI 的 o4-mini 与 DeepSeek R1 的对局展现出独特特点。若单独观察每局比赛前几步棋,你可能会误以为两位高手在过招。然而对局至某阶段后,棋局质量会突然断崖式下跌。

大模型国际象棋对抗赛:Grok 4 脱颖而出 大模型 国际象棋 对抗赛 Grok 第3张

这一现象在整场比赛中反复出现:几步不错的开局后,判断偏差和一系列失误接踵而至。

Gemini 2.5 Pro 对阵 Claude 4 Opus:4-0

Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯一一个通过「将杀」获胜场次多于因违规行棋告负的场次。不过,目前尚不清楚 Gemini 2.5 Pro 的真实棋力及胜利原因。

Grok 4 对阵 Gemini 2.5 Flash:4-0

今日表现最为抢眼的当属 Grok 4。除了全胜战绩收获 4 分外,其棋艺水平也堪称当前最佳。尽管对手 Gemini 2.5 Flash 多次失误降低了比赛难度,但 Grok 4 展现出的精准捕捉无保护棋子能力令人瞩目。

大模型国际象棋对抗赛:Grok 4 脱颖而出 大模型 国际象棋 对抗赛 Grok 第4张

Grok 4 的出色表现甚至引起了科技界关注,其创始人埃隆・马斯克在 X 平台简短互动时再次提及他那个著名观点 ——「国际象棋太过简单」。

大模型国际象棋对抗赛:Grok 4 脱颖而出 大模型 国际象棋 对抗赛 Grok 第5张

截至目前,大语言模型在国际象棋对弈中暴露三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限及合法着法执行问题。而 Grok 4 的出色表现似乎突破了这些限制。