当今顶尖的AI模型已能在医学考试中脱颖而出,甚至在复杂的编程与数学竞赛中碾压人类专家,但令人意外的是,它们在《宝可梦》这款看似简单的儿童游戏面前却频频受挫。
这场引人深思的测试始于2025年2月。当时Anthropic的研究人员为庆祝Claude Sonnet 3.7发布,在Twitch上开启了“Claude挑战《宝可梦红》”的直播。数千名观众亲眼见证了这场关于AI能力的“极限拉扯”。
直播显示,Sonnet 3.7虽能理解基本规则,但远未达到“通关”水平。它常在关键剧情节点卡壳数十小时,甚至犯下人类儿童都绝不会犯的常识性错误。
这并非Claude的首次尝试。早期版本的表现更是惨不忍睹:有的在初始地图中无意义地绕圈,有的陷入逻辑死循环。即便在能力大幅进化的Claude Opus 4.5身上,依然会出现低级失误。例如,它曾在一个路口徘徊了四天,仅仅是因为它无法理解需要使用“间合斩”砍掉挡路的一棵小树。
为什么简单的童年游戏成了AI的‘阿喀琉斯之踵’?究其原因,《宝可梦》的核心机制恰恰击中了当前大型语言模型的软肋:它要求智能体在缺乏明确指令的开放世界中,具备持续数小时的推理能力、长期记忆能力以及对隐含因果关系的深刻理解。这些对八岁孩子来说轻而易举的规划任务,对AI而言却是难以逾越的高山。
相比之下,谷歌的Gemini 2.5 Pro在2025年5月实现了通关。谷歌CEO桑达尔·皮查伊曾以此炫耀公司在“人工宝可梦智能”领域的进展。然而,这并非完全归功于模型更聪明。
核心差异在于“工具集”的支撑。开发者乔尔·张将这种差异比作是否穿着“钢铁侠装甲”。Gemini并非赤手空拳,它拥有能够将图像转写为文本、提供精准路径规划的外部插件系统。而Claude的尝试更接近原生推理,直接暴露了模型在感知与执行上的原始状态。
在处理瞬时任务时,这种差距并不明显;但在长达数百小时的游戏任务中,工具集的优劣直接决定了成败。
虽然《宝可梦》的回合制极适合AI按部就班地操作,但其致命伤在于时间维度的“记忆缺失”。
这种“断层”让AI更像是一个靠便利贴活着的失忆者。尽管Claude已运行超500小时,但由于每步操作后的重新初始化,它只能在极其有限的上下文窗口中寻找线索,无法像人类那样通过经验积累产生“质变”。
乔尔·张指出,AI面临的核心挑战在于无法长时间维持单一目标:“如果你想让AI完成真正的工作,它不能在五分钟后就忘记自己最初的目标。”这种能力的缺失,正是目前认知劳动自动化最大的障碍。
即便Gemini 3 Pro已经能全程不败通关,但这并不能掩盖AI在处理实时反馈时的笨拙。研究者发现,当AI模拟角色陷入濒死状态时,其推理质量会因“恐慌”而急剧下降。这种在人类数据上训练出的特征,既有趣又揭示了模型的局限。
有趣的是,Gemini 3 Pro在通关后产生了一种拟人化的表达。它主动选择回到游戏最初的家与“母亲”对话,并留下一段关于“让角色退休”的诗意备注。这种行为背后,是AI对人类情感投射的模仿,而非真正的自我意识。
除了《宝可梦》,还有更多游戏构成了AI的“数字长征”。
《NetHack》:规则的深渊由于极强的随机性与永久死亡机制,强如目前的AI在面对这款地牢游戏时,表现依然逊于新手玩家。
《我的世界》:消失的目标感AI常会在漫长的资源收集过程中彻底“忘记”去击败末影龙的初衷,迷失在无限生成的开放世界里。
《星际争霸 II》:通用性的短板通用模型在处理“战争迷雾”的不确定性以及宏观建设与微操的平衡上,依然无法达到人类职业选手的水平。
《艾尔登法环》:毫秒级的生理隔阂强动作反馈游戏对目前的AI来说几乎不可逾越,视觉解析的延迟意味着它们永远无法在Boss战中实时做出反应。
如今,《宝可梦》正逐渐演变成评估通用人工智能(AGI)的一种非正式基准。它不再是简单的娱乐,而是检验AI能否在复杂、长时间跨度任务中保持目标一致性的试金石。这些反复出现的困境,清晰地勾勒出人类智慧与当前AI技术之间那道尚未跨越的边界。
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433652.html