当前位置：首页 > 科技资讯 > 正文

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破

主机测评网
科技资讯
2025-12-26
833

一场令人振奋的虚拟对决刚刚落幕！

人工智能模型GPT-5化身宝可梦训练师，在直播中经过一小时的激烈对抗，终于战胜了传奇角色赤爷（Red），直播间被“GG”的弹幕淹没。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第1张

根据推特博主Clad3815发布的最新战报，GPT-5仅用9517步就击败了赤爷，成功通关经典游戏《宝可梦水晶》。

相比之下，其他模型如o3则用了27040步，步数几乎是GPT-5的三倍，效率差距显著。

换算成时间，GPT-5不眠不休连续游戏约202小时（约一周多）即可通关，而o3则需要近一个月。对于普通人类玩家，通常每天玩8小时，通关需5天左右。

这一成就引发玩家热议，许多人留言呼吁GPT-5继续挑战下一代宝可梦游戏！

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第2张

那么，GPT-5是如何实现这一壮举的呢？

赤爷沉默，GPT-5登顶宝可梦巅峰

在《宝可梦水晶》的剧情中，玩家从初始小镇出发，选择初始宝可梦，一路挑战道馆馆主、收集徽章，阻止火箭队的阴谋，最终面对最强训练家——赤红（初代《宝可梦红/蓝》的主角）。

这次，GPT-5扮演了挑战者的角色，像小智一样踏上旅程，并一举击败赤爷，登上了宝可梦世界的顶峰。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第3张

除了步数上的优势，GPT-5在游戏全程主线任务中都展现出高效推进能力，效率远超o3模型数倍。

（注：在《宝可梦水晶》中，击败最终Boss后玩家仍可自由探索收集宝可梦，因此直播仍在继续。）

例如，在收集全部16枚游戏徽章的关键任务中，GPT-5仅用了9205步，而o3则耗费了22334步。

更令人惊讶的是，从集齐徽章到战胜赤爷，o3还需要近5000步，而GPT-5仅用了312步，加速了十几倍。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第4张

同样，在面对四天王和冠军的剧情中，GPT-5只花了7329步，而o3则用了两倍多的步数（18115步）。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第5张

此外，在挑战《宝可梦水晶》之前，GPT-5还成功通关了《宝可梦红》（游戏时长约为《宝可梦水晶》的一半）。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第6张

赤爷的沉默见证了GPT-5以三倍效率的碾压式胜利。

对此，OpenAI总裁兼联合创始人Greg Brockman亲自转发推文，表示认可这一成就！

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第7张

针对GPT-5的出色表现，Clad老哥总结了几个关键原因：

幻觉减少，速度提升：GPT-5的“幻觉”现象明显比o3少，这是其速度大幅提高的主因。
空间推理能力强：o3常试图硬穿墙壁，在复杂区域易迷路，而GPT-5能规划长序列行动，几乎无错误，节省大量时间。
目标规划更优：GPT-5在设定并执行自身目标方面表现卓越。

这是否意味着，GPT-5模型能力的提升，在宝可梦这类复杂游戏环境中得到了充分展现？

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第8张

（让结果再发酵一段时间）

不过，需要指出的是——让大模型玩宝可梦并非新鲜事。

早在GPT-5之前，Google的Gemini和Anthropic的Claude就曾尝试挑战宝可梦游戏。

其中，Gemini 2.5 Pro在今年五月直播中成功通关《宝可梦蓝》，而Claude则进展缓慢，至今仍被困在火箭队剧情中。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第9张

那么问题来了：为什么AI大模型都青睐这款上世纪发布的怀旧游戏呢？

宝可梦成为新的性能基准测试？

要回答这个问题，首先需了解大模型如何玩宝可梦游戏。

通常，大模型玩宝可梦的基本步骤包括：

提供系统提示，包含游戏操作的具体建议
提供叠加额外信息的游戏截图
提供来自游戏内存（RAM）的关键数据
提供保存文本以便进行长期规划
提供工具将文本指令转换为模拟器按键操作
提供路径规划工具
实现上下文自动清理和定期总结
引入额外的“自我批评”模型（Critic/Guide），定期评审主模型，并通过系统提示帮助避免常见失败模式

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第10张

此外，大模型还会构建带标记的小地图，帮助在游戏世界中定位，这类似于人类玩家在脑中构建地图的方式。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第11张

综上所述，我们获得一个基本认识：在宝可梦游戏中，大模型通过多层信息整合、规划、执行与自我纠错，实现了接近人类玩家的决策能力。

因此，宝可梦游戏可作为衡量模型上下文处理能力、决策规划水平及界面控制能力的指标之一。

然而，这场“考试”的参与成本并不低廉。

据网友分析，在GPT-5通关游戏时长仅为《宝可梦水晶》一半的《宝可梦红》过程中，就消耗了约3500美元（约合2.5万人民币）的GPT-5 API额度，平均每个token花费超过4元人民币。

所以，除非你在OpenAI工作，否则想将宝可梦作为性能基准测试，还需先考量自身经济实力。

GPT-5以创纪录效率通关《宝可梦水晶》，人工智能游戏领域新突破 GPT-5 宝可梦水晶 AI游戏测试基准评估第12张

参考链接

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close

高防服务器免费服务器性价比服务器

本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20251212817.html

上一篇

Hot Chips 2025：光芯片技术掀起AI互连新浪潮

下一篇

192线激光雷达下探20万以下市场，智驾安全成消费新焦点