当前位置：首页 > 科技资讯 > 正文

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼

Kaggle Game Arena的淘汰赛余温未了，国际象棋积分赛战果揭晓！OpenAI o3以人类等效Elo 1685分傲视群雄，紧随其后的是Grok 4和Gemini 2.5 Pro。DeepSeek R1与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

淘汰赛已成过往，积分赛才是硬道理！

这次是真刀真枪的「积分赛」，Elo榜单见证硬实力。

经过40轮激战，国际象棋AI仅文本输入成绩出炉。

仅依赖文本输入、无工具、无验证器，各大AI模型展开激烈对决。

每组配对进行超过40场比赛，构建了类似围棋等运动项目的Elo排名体系。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第1张

OpenAI o3独占鳌头，Grok、Gemini紧随其后。

第一名：o3，估计人类等效Elo为1685分，而人类大师水平为2200分！

第二名：Grok 4，估计人类等效Elo为1395分，表现不俗。

第三名: Gemini 2.5 Pro，估计人类等效Elo为1343分，稍逊一筹。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第2张

值得一提的是，DeepSeek-R1-0528与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第3张

GameArena的首次AI国际象棋比赛，o3最终夺冠，实力得到了证明。

Game Arena首次积分赛排行榜

此前，Kaggle举办了首届AI国际象棋表演赛，展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等模型在国际象棋方面的表现。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第4张

这些模型进步显著，为观众带来不少乐趣，例如发现大语言模型偏爱西西里防御开局。

但四局三胜的淘汰赛偶然性较大，无法严格衡量模型的真实水平。

因此，今天谷歌旗下的Kaggle正式发布了Game Arena平台上的国际象棋文本排行榜。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第5张

国际象棋文本排行榜是一个严格的AI基准测试平台。前沿大语言模型在此竞技，全面考验它们的战略推理、规划、适应和协作能力。

平台通过透明的测试设计、丰富的游戏数据和不断更新的多游戏排行榜，为评估 AI 的真实认知能力提供了动态且可复现的标准。

该排行榜基于所有参赛模型之间的循环赛结果，每对模型进行20场白棋和20场黑棋的对决，总共40场比赛。

这次还扩大了参赛模型范围，不仅包括上周表演赛的8个模型，还增加了更多模型，以提供更全面、更可靠的评估结果。

AI国际象棋积分赛：OpenAI o3夺魁，各模型实力比拼 OpenAI o3 国际象棋积分赛 AI模型第6张

...

本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440010.html