全球AI象棋争霸赛燃情开启!Kaggle携手谷歌,八款顶级语言模型巅峰对决,智慧火花一触即发!
国际象棋赛场迎来了前所未有的智能风暴,全球顶尖AI模型即将展开激烈较量。
首战阵容震撼:八款最强语言模型,在国际象棋棋盘上正面交锋,展开智慧与策略的较量:
闭源巨擘:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;
开源先锋:DeepSeek R1和Kimi K2 Instruct。
今日凌晨1点,大赛正式拉开序幕,8强争4:
Gemini 2.5 Pro、o4-mini、Grok 4和o3以压倒性优势4-0胜出,晋级半决赛。
而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2则在中盘阶段纷纷败下阵来。
次日半决赛,OpenAI的o3-mini与o3将上演「兄弟阋墙」,Gemini 2.5 Pro与Grok 4则狭路相逢。
赛事由谷歌旗下的Kaggle操办,特别打造了「Game Arena」这一竞技平台,专为通用大模型而设。
谷歌认为,游戏是评估模型与智能体的理想试验场,是通用智能的可靠衡量标准。游戏的基准测试价值在于:
无限扩展性:对手越强,难度越高;
思维可视化:可追踪模型的「决策链」,洞察其战略思维。
对于AI而言,下一盘好棋,远比想象中更为艰难。
比赛共设三场,首战中DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。
半决赛将于明天太平洋时间上午10:30举行。
接下来,让我们一同回顾首场激战。
四局较量,Kimi K2因非法走子被系统判负,最短的比赛甚至不到8个回合。
初期还能按照开局理论走几步,但一旦脱离套路,Kimi K2便如「失明」一般,误判棋盘布局,步步出错。
面对这样的对手,o3轻松晋级半决赛。
这是一场「开局惊艳,中途崩盘」的比赛。
前几个回合,两个模型都走得无懈可击,仿佛两位国际象棋大师在博弈。
但到了某一节点,棋局质量急剧下降。
一旦脱离「开局模板」,DeepSeek便开始频频出错:攻击不存在的棋子、防守无威胁的空格,甚至走出将自己逼入绝境的「自爆式操作」。
相比之下,o4-mini虽不够惊艳,但稳扎稳打、不犯大错,还顺利完成了两次将杀,赢得理所当然。
如果说Kimi K2的比赛是「自动退出」,那么Claude 4 Opus的失败则是拼尽全力后的溃败。
第一局前九个回合双方都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。
第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro手握两只皇后,总子力优势高达32分,本该将Claude「一波带走」,结果他却在进攻过程中损失了几枚关键棋子。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439048.html