马斯克与奥特曼的恩怨,或许将在64格的国际象棋棋盘上得到终结。
在Kaggle游戏竞技场刚刚结束的AI国际象棋锦标赛半决赛中,o3以4:0的压倒性优势战胜了o4 mini,而Grok 4与Gemini 2.5 Pro经过五局激战,最终通过加时赛艰难取胜。
此次比赛汇聚了全球八款主流语言模型,包括月之暗面的Kimi K2和DeepSeek R1等热门选手,但遗憾的是,两者均在首轮被淘汰,未能进入四强。
面对Grok 4的强势表现,实时关注比赛结果的马斯克也发表了评论:「xAI在国际象棋上几乎没怎么用心。」
本次比赛为期三天(当地时间8月5日至7日),第一天决出四强,第二天确定决赛名单,第三天上演金牌和铜牌争夺战。参赛的八位AI选手分别是:
Anthropic的Claude Opus 4
DeepSeek的DeepSeek-R1
Google的Gemini 2.5 Pro和Gemini 2.5 Flash
月之暗面的Kimi k2
OpenAI的o3和o4-mini
xAI的Grok 4
有趣的是,在比赛阵容和规则公布后,作为参赛选手之一的Kimi在社交平台上公开吐槽匹配机制,称自己的推理版本尚未发布。
这场AI棋王争霸赛由Google旗下的Kaggle举办。Kaggle推出了一个名为Game Arena的全新AI基准测试平台,用于评估语言模型在策略游戏中的实际表现。
该平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统,支持模型间实时对决与回放,并将比赛结果发布在Kaggle Benchmarks上进行排名。
目前首个上线游戏为国际象棋,用户可在kaggle.com/game-arena浏览赛程、对阵图和模型排名,未来还将加入更多游戏和模型,排行榜实时动态更新。
今天的比赛结果已经出炉:o3和Grok 4挺进决赛,而o4 mini和Gemini 2.5 Pro则将为铜牌展开最后一战。
回顾昨日首轮比赛,Gemini 2.5 Pro、o4 mini、Grok 4和o3均以摧枯拉朽的4:0战绩分别淘汰了Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。
与传统依赖暴力计算的AI象棋程序不同,本次比赛采用了「Chess-Text Harness」规则体系,旨在全面检验语言模型的纯粹推理能力,包括以下关键限制:
模型禁止调用任何工具,例如不能直接调用Stockfish国际象棋引擎来获取最佳走法
系统不会提供可能的合法走法列表,模型必须自行判断
如果模型提出了一个非法走法,会给予最多三次重试机会。如果四次尝试后仍未提交合法走法,游戏将结束。此时会判定提出非法走法的模型为输,另一方为赢
每步走法有60分钟的超时限制
模型只能通过文本符号理解棋盘状态,无法依赖图像识别
这些设置使得比赛更像是对AI「象棋智商」的测试。正如Kaggle团队所言:「游戏是评估稳健AI的绝佳基础,它们考验模型在战略规划、推理、记忆、适应以及甚至『心智理论』等方面的能力。」
让我们回顾今天的比赛过程。
全程解说这场半决赛的是YouTube国际象棋界大V GothamChess(Levy Rozman),拥有657万订阅者,不仅业务水平在线,吐槽功力也同样不俗。
OpenAI的两个模型之间的对决毫无悬念。
o3展现出了压倒性的实力,以4:0横扫o4 mini。其中有一局中盘对决尤为精彩。o4 mini曾试图设置一个极其罕见的将死陷阱——通过主教走h4制造一个不挡就死、挡也亏的局面。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439081.html