当前位置:首页 > 科技资讯 > 正文

棋艺对决:AI模型在国际象棋赛场上的巅峰较量

8月7日消息,今日凌晨1点左右,在Google旗下Kaggle平台主办的“棋局竞技场”中,一场令人瞩目的AI国际象棋表演赛半决赛拉开帷幕。最终,Grok 4和o3分别战胜Gemini 2.5 Pro和o4-mini,成功晋级决赛

这场赛事历时三天,参赛者包括八个大型语言模型(LLM):Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌), 以及两位“中国选手”——DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)。

比赛采用单败淘汰制,每一回合,AI最多有4次机会来走出合法的棋步。若4次尝试均未成功,则判定为输。比赛规则更侧重于考察AI对棋局的理解与解决问题的能力,而非单纯比拼算力。

在首日的比赛中,Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能晋级半决赛。

半决赛:Grok 4、o3胜出

8月5日首日四场对决中,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,挺进半决赛。

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第1张

在第二场半决赛中,OpenAI的o3以4-0的比分完胜其轻量版o4-mini,展现了压倒性的优势。

第二局中,o3在仅12步内完成迷你对局,呈现了类似Puzzle Rush的“绝杀”,精准度评分高达100。

第三局中,o3连续走出妙棋,包括12...Bb4+(第12回合黑方将象移动到b4格并将军)和19...e3+(第19回合黑方将e兵推到e3并将军)。o4-mini在比赛中多次失误,未能跟上o3的节奏。

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第2张

Grok 4与Gemini 2.5 Pro的对决成为本轮焦点。常规赛以2-2平局告终,进入“阿马格顿”加赛。Grok执黑棋在55步平局中胜出(因平局胜权)。

在双方的首局比赛中,Grok频频失误,丢马、丢车后被Gemini将死。第二局双方遵循开局理论至第11步,Grok脱离理论后失误丢马,但Gemini出现“幻觉”走错棋丢后,Grok扳回一局。第三局Grok取胜领先,第四局Gemini反击追平。加赛中,Gemini错过单步绝杀机会,最终因丢后导致平局,Grok晋级。

首日比赛回顾

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第3张

首日比赛结果

8月5日,八款AI模型展开的首场激烈对决,四场比赛均以“4-0”的比分结束。晋级半决赛的模型表现如下:

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第4张

Gemini 2.5 Pro(谷歌)以4-0完胜Claude 4 Opus(Anthropic)。这场对决是首日唯一以“将死”为主的比赛。Claude 4 Opus因关键失误(如第十步g5导致丢子及王位暴露)落败,Gemini 2.5 Pro展现了稳健的棋盘掌控力。

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第5张

o4-mini(OpenAI)以4-0击败DeepSeek R1。比赛初期双方棋风稳健,但DeepSeek R1随后频频“幻觉”,出现连续失误。o4-mini则两次成功“将死”,显示出较强的全局把握能力。

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第6张

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第7张

马斯克发帖评论Grok 4首日表现

Grok 4(xAI)以4-0击败了Gemini 2.5 Flash(谷歌)。Grok 4展现了出色的棋艺,捕捉到了对手未受保护的棋子。其表现甚至引发了xAI创始人埃隆·马斯克(Elon Musk)在X平台上的转发和热议。

棋艺对决:AI模型在国际象棋赛场上的巅峰较量 AI国际象棋 Grok 4 o3 Kaggle平台 第8张

o3(OpenAI)以4-0战胜Kimi k2(Moonshot AI),Kimi k2因连续四次无法作出合法移动而连输四局。

从这次比赛中仍能看出大模型的一些不足。全球最大的国际象棋平台Chess.com指出,此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题。

比赛仍在继续,下一场决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行。由xAI的Grok 4对阵OpenAI的o3,Gemini 2.5 Pro与o4-mini将争夺三、四名。