当前位置:首页 > 科技资讯 > 正文

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先

在Kaggle Game Arena的淘汰赛之后,国际象棋积分赛的成绩正式公布。OpenAI o3凭借1685分的人类等效Elo评分位居榜首,Grok 4和Gemini 2.5 Pro则分别获得第二和第三名。

淘汰赛已成为过去,现在要看真正的实力!

本次是实打实的「积分赛」,Elo排名才是衡量硬实力的标准。

经过40轮激烈对决,仅使用文本输入的国际象棋AI比赛结果终于揭晓。

比赛规则限定为纯文本输入,不使用任何工具或验证器,各大AI模型在此条件下展开较量。

每对模型进行了超过40场比赛,采用类似围棋等体育项目的Elo排名系统。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第1张

OpenAI o3在排行榜中一枝独秀,Grok和Gemini紧随其后。

第一名:o3,人类等效Elo估计为1685分,而人类大师水平通常为2200分!

第二名:Grok 4,人类等效Elo估计为1395分,表现可圈可点。

第三名:Gemini 2.5 Pro,人类等效Elo估计为1343分,略逊于前者。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第2张

此外,DeepSeek-R1-0528与GPT-4.1、Claude Sonnet-4、Claude Opus-4共同并列第五名。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第3张

GameArena的首次AI国际象棋比赛,o3最终夺冠,这充分证明了其强大实力。

Game Arena首次积分赛排行榜发布

此前,Kaggle举办了首届AI国际象棋表演赛,展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在国际象棋中的表现。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第4张

这些模型显示出显著进步,参与者从中获得乐趣,例如发现大语言模型普遍偏好西西里防御开局。

但四局三胜的淘汰赛制偶然性较高,无法准确反映模型的真实水平。

因此,谷歌旗下的Kaggle今日正式推出了Game Arena平台上的国际象棋文本排行榜

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第5张

排行榜链接:https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

国际象棋文本排行榜是一个严谨的AI基准测试平台。前沿大语言模型在此比拼,全面测试它们的战略推理、规划、适应和协作能力

平台通过透明的测试设计、丰富的游戏数据和持续更新的多游戏排行榜,为评估AI的真实认知能力提供了动态且可重复的标准。

国际象棋文本排行榜详解

该排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对局,总计40场比赛。

本次比赛扩大了模型参与范围,不仅包括上周表演赛的8个模型,还新增了更多模型,以提供更全面、可靠的评估。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第6张

Game Arena的Elo分数采用标准的Bradley-Terry算法,根据模型之间的对战结果计算。

为了估算这些模型的人类等效Elo评分,它们与L0到L3不同级别的国际象棋Stockfish引擎对弈。

通过线性插值法,基于Stockfish各级别对应的人类Elo评分,计算大模型的人类等效Elo分。具体为:L0对应1320分,L1对应1468分,L2对应1608分,L3对应1742分。

需要注意的是,这些模型与顶级人类棋手相比仍有较大差距

人类「大师」级棋手的评分在2200分或更高,

「特级大师」为2500分或更高,

而最强版本的Stockfish引擎估计的人类Elo评分高达3644分。

Stockfish是一款免费开源的国际象棋引擎。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第7张

自2020年以来,Stockfish赢得了顶级国际象棋引擎锦标赛(TCEC)和Chess.com计算机国际象棋锦标赛(CCC)的所有主要赛事,截至2025年8月,它是世界上最强的CPU国际象棋引擎,估计Elo等级为3644分。

置信区间通过500次重采样比赛结果,并分别计算Game Arena Elo和人类Elo分得出。

除了Elo分数,本次还新增了「平均每回合Token数」和「平均每回合成本」等指标,以反映模型在性能与效率之间的平衡。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第8张

当然,这个排行榜也存在一些限制和不足

(1)仅限于国际象棋:没有任何单一游戏能全面捕捉智能的所有方面。Kaggle计划通过未来引入更多游戏来缓解这一问题。

(2)超时限制:严格的每步棋时间限制可能惩罚那些需要更长时间思考、进行深度分析的模型,从而偏向于速度更快但策略可能较浅的模型。

(3)抽样随机性:使用了模型提供商设置的默认抽样参数,这些参数可能具有非确定性。

全新测试基准,支持游戏回放查看

用户可以在Kaggle的YouTube播放列表中观看带解说的表演赛,但排行榜上提供了更多对局回放。只需点击模型旁边的回放图标,即可选择观看特定对局。

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第9张

此外,本次还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集:国际象棋文本输入基准测试「Chess Text Gameplay」

Kaggle Game Arena国际象棋文本积分赛:OpenAI o3以1685分Elo领先 国际象棋AI  Elo评分 Kaggle基准测试 AI战略推理 第10张

数据集链接:https://www.kaggle.com/datasets/kaggle/chess-text-gameplay

国际象棋文本输入基准测试旨在评估和比较当前通用语言模型的战略推理能力。

这是Kaggle公开基准测试平台Game Arena的首个项目,该平台让AI模型在复杂战略游戏中竞争,结合了严谨的科学方法和观赏性竞赛体验。

为何此举重要?Kaggle阐述了三大原因:

超越数据污染问题:静态测试难以区分模型的真实推理能力和记忆答案的能力。而在国际象棋文本输入测试中,每一步决策都基于模型的内部逻辑,确保评估的是真实的思考过程。

高压环境下的表现:模型必须随机应变、从错误中学习,并把握转瞬即逝的机会,如同人类国际象棋大师应对复杂局面。

通用人工智能(AGI)的洞察:在此领域取得成功,意味着模型在多步骤战略问题解决方面达到了重要里程碑,为AGI发展提供宝贵参考。

超越数据污染,这才是AI的“高考”!

每一步棋,都考验着大模型的真实战略推理、规划和应变能力。

同时,他们也指出了该数据集的一些局限性

推理:推理输出是模型思考过程的生成性摘要。它并非内部计算的字面记录,因为模型通常隐藏其内部思考过程。

测试框架:模型的性能与此基准测试的特定框架密切相关。

时间快照:该数据集代表了这些特定模型版本在收集时的性能。

数据结构 「PGNs_with_reasoning」(包含推理的PGN)数据集包含表示大型语言模型所下国际象棋游戏的便携式游戏记谱法(PGN)文件。每个PGN文件由国际象棋记谱和大型语言模型在每一

Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。

未来,Game Arena将推出更多游戏的排行榜,为AI模型能力评估提供更全面的基准。

今天的国际象棋文本排行榜仅是第一步。

参考资料: 

https://x.com/kaggle/status/1958546786081030206