当前位置:首页 > 科技资讯 > 正文

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间

全球AI象棋争霸赛燃情开启!Kaggle携手谷歌,八款顶级语言模型巅峰对决,智慧火花一触即发!

国际象棋赛场迎来了前所未有的智能风暴,全球顶尖AI模型即将展开激烈较量。

首战阵容震撼:八款最强语言模型,在国际象棋棋盘上正面交锋,展开智慧与策略的较量:

闭源巨擘:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;

开源先锋:DeepSeek R1和Kimi K2 Instruct。

首战硝烟散去

今日凌晨1点,大赛正式拉开序幕,8强争4:

Gemini 2.5 Pro、o4-mini、Grok 4和o3以压倒性优势4-0胜出,晋级半决赛。

而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2则在中盘阶段纷纷败下阵来。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第1张

次日半决赛,OpenAI的o3-mini与o3将上演「兄弟阋墙」,Gemini 2.5 Pro与Grok 4则狭路相逢。

赛事由谷歌旗下的Kaggle操办,特别打造了「Game Arena」这一竞技平台,专为通用大模型而设。

谷歌认为,游戏是评估模型与智能体的理想试验场,是通用智能的可靠衡量标准。游戏的基准测试价值在于:

无限扩展性:对手越强,难度越高;

思维可视化:可追踪模型的「决策链」,洞察其战略思维。

对于AI而言,下一盘好棋,远比想象中更为艰难。

比赛共设三场,首战中DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第2张

半决赛将于明天太平洋时间上午10:30举行。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第3张

接下来,让我们一同回顾首场激战。

Kimi K2犯规出局,o3不战而胜

四局较量,Kimi K2因非法走子被系统判负,最短的比赛甚至不到8个回合。

初期还能按照开局理论走几步,但一旦脱离套路,Kimi K2便如「失明」一般,误判棋盘布局,步步出错。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第4张

面对这样的对手,o3轻松晋级半决赛。

DeepSeek R1中盘掉线,o4-mini两局将杀

这是一场「开局惊艳,中途崩盘」的比赛。

前几个回合,两个模型都走得无懈可击,仿佛两位国际象棋大师在博弈。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第5张

但到了某一节点,棋局质量急剧下降。

一旦脱离「开局模板」,DeepSeek便开始频频出错:攻击不存在的棋子、防守无威胁的空格,甚至走出将自己逼入绝境的「自爆式操作」。

相比之下,o4-mini虽不够惊艳,但稳扎稳打、不犯大错,还顺利完成了两次将杀,赢得理所当然。

Claude 4 Opus血战到底,仍不敌Gemini 2.5 Pro

如果说Kimi K2的比赛是「自动退出」,那么Claude 4 Opus的失败则是拼尽全力后的溃败。

第一局前九个回合双方都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第6张

第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro手握两只皇后,总子力优势高达32分,本该将Claude「一波带走」,结果他却在进攻过程中损失了几枚关键棋子。

全球AI象棋争霸赛:顶尖模型激战,胜负一线之间 AI国际象棋 Kaggle 全球争霸赛 语言模型 第7张