一场令人振奋的虚拟对决刚刚落幕!
人工智能模型GPT-5化身宝可梦训练师,在直播中经过一小时的激烈对抗,终于战胜了传奇角色赤爷(Red),直播间被“GG”的弹幕淹没。
根据推特博主Clad3815发布的最新战报,GPT-5仅用9517步就击败了赤爷,成功通关经典游戏《宝可梦水晶》。
相比之下,其他模型如o3则用了27040步,步数几乎是GPT-5的三倍,效率差距显著。
换算成时间,GPT-5不眠不休连续游戏约202小时(约一周多)即可通关,而o3则需要近一个月。对于普通人类玩家,通常每天玩8小时,通关需5天左右。
这一成就引发玩家热议,许多人留言呼吁GPT-5继续挑战下一代宝可梦游戏!
那么,GPT-5是如何实现这一壮举的呢?
在《宝可梦水晶》的剧情中,玩家从初始小镇出发,选择初始宝可梦,一路挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终面对最强训练家——赤红(初代《宝可梦红/蓝》的主角)。
这次,GPT-5扮演了挑战者的角色,像小智一样踏上旅程,并一举击败赤爷,登上了宝可梦世界的顶峰。
除了步数上的优势,GPT-5在游戏全程主线任务中都展现出高效推进能力,效率远超o3模型数倍。
(注:在《宝可梦水晶》中,击败最终Boss后玩家仍可自由探索收集宝可梦,因此直播仍在继续。)
例如,在收集全部16枚游戏徽章的关键任务中,GPT-5仅用了9205步,而o3则耗费了22334步。
更令人惊讶的是,从集齐徽章到战胜赤爷,o3还需要近5000步,而GPT-5仅用了312步,加速了十几倍。
同样,在面对四天王和冠军的剧情中,GPT-5只花了7329步,而o3则用了两倍多的步数(18115步)。
此外,在挑战《宝可梦水晶》之前,GPT-5还成功通关了《宝可梦红》(游戏时长约为《宝可梦水晶》的一半)。
赤爷的沉默见证了GPT-5以三倍效率的碾压式胜利。
对此,OpenAI总裁兼联合创始人Greg Brockman亲自转发推文,表示认可这一成就!
针对GPT-5的出色表现,Clad老哥总结了几个关键原因:
这是否意味着,GPT-5模型能力的提升,在宝可梦这类复杂游戏环境中得到了充分展现?
(让结果再发酵一段时间)
不过,需要指出的是——让大模型玩宝可梦并非新鲜事。
早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾尝试挑战宝可梦游戏。
其中,Gemini 2.5 Pro在今年五月直播中成功通关《宝可梦蓝》,而Claude则进展缓慢,至今仍被困在火箭队剧情中。
那么问题来了:为什么AI大模型都青睐这款上世纪发布的怀旧游戏呢?
要回答这个问题,首先需了解大模型如何玩宝可梦游戏。
通常,大模型玩宝可梦的基本步骤包括:
此外,大模型还会构建带标记的小地图,帮助在游戏世界中定位,这类似于人类玩家在脑中构建地图的方式。
综上所述,我们获得一个基本认识:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。
因此,宝可梦游戏可作为衡量模型上下文处理能力、决策规划水平及界面控制能力的指标之一。
然而,这场“考试”的参与成本并不低廉。
据网友分析,在GPT-5通关游戏时长仅为《宝可梦水晶》一半的《宝可梦红》过程中,就消耗了约3500美元(约合2.5万人民币)的GPT-5 API额度,平均每个token花费超过4元人民币。
所以,除非你在OpenAI工作,否则想将宝可梦作为性能基准测试,还需先考量自身经济实力。
[1]https://x.com/Clad3815/status/1959856362059387098
[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s
[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data
[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212817.html