当前位置：首页 > 科技资讯 > 正文

世界模型：AI领域经典理念的当代复兴

主机测评网
科技资讯
2026-01-11
532

世界模型：AI领域经典理念的当代复兴世界模型通用人工智能深度学习鲁棒性第1张

人工智能探索的前沿，特别是在致力实现“通用人工智能”（AGI）的研究机构中，正聚焦于一个核心构想——“世界模型”。这相当于AI系统内部的一个数字化微缩环境，仿佛一个可计算的水晶球。借助这一简化表征，AI能够在实际执行操作前，对可能的行动路径进行模拟与预判。

深度学习界的多位领军人物——Meta的杨立昆、Google DeepMind的德米斯·哈萨比斯以及Mila的约书亚·本吉奥均强调，若要打造真正智能、科学且稳健的AI，构建世界模型是必经之路。

事实上，类似理念在心理学、机器人学及机器学习等学科已以不同形式存在数十年。此刻，你的大脑或许正运行着一个“世界模型”——正是它让你无需亲身体验，就能判断不应走向疾驰的列车前方。

这是否意味着AI研究者终于对一个核心概念的定义达成了共识？借用某位著名物理学家的调侃：“这简直是天方夜谭。”世界模型听起来清晰直观，但一如往常，细节之处众说纷纭。例如：模型应涵盖哪些要素？其精确度应达到何种标准？它是先天具备的，还是后天习得的，抑或二者兼具？我们又该怎样验证其存在？

追溯概念的源头颇有助益。早在1943年——“人工智能”一词诞生前12年，年仅29岁的苏格兰心理学家肯尼斯·克雷克出版了一本颇具影响力的小册子，其中提出一个设想：倘若生物体在头脑中携带一个外部现实的“微型模型”，它便能预先测试不同选项，甄别最优方案，从而做出更周全、稳妥、有效的反应。

克雷克关于心理模型或心理模拟的构想，实际上预示了二十世纪五十年代兴起并至今主导认知科学的“认知革命”。更关键的是，它直接将认知与计算联系起来：克雷克指出，“并行或模拟外部事件的能力”，乃是“神经机制”与“计算机器”共有的“基本特性”。

新兴的人工智能领域很快接纳了世界模型的思路。二十世纪六十年代末，一款名为SHRDLU的AI系统令人惊叹：它通过一个简单的“积木世界”来回答关于桌面物体的常识问题，例如“一个金字塔能否支撑一个方块？”。然而，此类手工构建的模型难以扩展，无法应对真实环境的复杂性。到了八十年代末，人工智能与机器人学先驱罗德尼·布鲁克斯则彻底放弃了世界模型，他那句名言广为流传——“世界自身便是其最佳模型”，而“显式表征……只会成为阻碍”。

让克雷克的构想重获新生的是机器学习的蓬勃发展，尤其是基于人工神经网络的深度学习。深度神经网络不再依赖脆弱的手写规则，而是通过反复试错，在训练过程中逐步构建出内部的环境近似模型，并用于完成如驾驶虚拟赛车等特定任务。

近年来，随着支撑聊天机器人（如ChatGPT）的“大语言模型”展现出诸多“涌现”能力——例如通过表情符号猜电影名或下黑白棋——世界模型成为一种颇具解释力的视角。对于杰弗里·辛顿、伊利亚·苏茨克弗与克里斯·奥拉等顶尖AI专家而言，答案似乎不言自明：在LLM庞大“虚拟神经元”网络的某个深处，必定存在一个“外部现实的微型模型”，正如克雷克当年所描绘的那样。

但现实（至少目前）并非如此理想。当前的生成式AI更倾向于学习“启发式规则集合”：成千上万条彼此独立的经验法则，能在特定情境下给出近似回应，却无法融合成一个连贯的整体，有时甚至相互冲突。这恰似盲人摸象：一人摸到象鼻，以为大象像蛇；另一人摸到腿，以为像树；还有人摸到尾巴，说像绳子。当研究者尝试从大语言模型内部寻找世界模型的证据——例如，对黑白棋棋盘的一种连贯计算表征——他们寻找的是完整的大象。而实际发现的，却是零散的“蛇”、“树”和“绳子”。

当然，这些启发式规则并非毫无价值。大语言模型能在其数万亿参数中编码海量此类规则——正如俗语所说，“量变引发质变”。因此，正如哈佛大学与麻省理工学院的研究者近期发现的那样，仅通过语言数据，模型就能近乎完美地生成曼哈顿任意两点间的导航路线，尽管它并未掌握整个街道网络的连贯世界模型。

那么，如果零散的“蛇、树、绳子”足以应对任务，为何还要追求完整的“大象”？答案仅一词：鲁棒性。当研究人员随机封闭曼哈顿1%的街道时，LLM的导航能力便显著下降。倘若它内部拥有的是一张一致且连贯的街道地图，而非在每个路口依赖相互矛盾的“最佳猜测”拼凑成的复杂补丁网，它本可轻松规避障碍。

即便是简单的世界模型也能带来显著优势，这解释了为何所有大型AI实验室都竞相研发它们，学术界也日益关注。一个健壮且可验证的世界模型，或许未必能直接通向通用人工智能的“应许之地”，但至少有望提供一种科学上可靠的工具，用以减少AI幻觉、增强可靠推理，并改善AI系统的可解释性。

这便是世界模型的“内涵”与“价值”。至于“实现路径”，依然悬而未决。Google DeepMind和OpenAI认为，只需足够多的“多模态”训练数据——如视频、三维模拟及超越文本的其他输入——世界模型便会在神经网络中自然“涌现”。与此同时，杨立昆则认为，构建世界模型需要完全不同于生成式AI的全新架构。在打造这个“计算型水晶球”的征程中，无人拥有预知未来的水晶球。但此次追寻的终极目标，或许确实值得围绕通用人工智能的所有热望。

原文：

https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/