当前位置:首页 > 科技资讯 > 正文

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元

在科技领域仍陷入大模型"参数竞赛"泥潭之时,斯坦福大学教授兼World Labs联合创始人李飞飞教授揭示了一个更深层的制约:现有人工智能系统受限于文本与二维图像构建的"扁平化世界",这与我们身处的、立体的、受物理法则支配的现实世界存在显著脱节。

11月11日,在其广泛传播的长文中,李飞飞明确提出,空间智能,正是打破这一认知壁垒的核心。它不仅象征着人工智能演进的下一个前沿,更是AI从"对话工具"转型为"行动伙伴"、真正融入物理世界的转折点。

本文系统梳理了李飞飞对空间智能技术路径与应用前景的阐述,并结合多位产业实践者的洞见,共同展望这一变革性力量将如何重塑人机关系与产业格局。

从语言理解到世界认知:空间智能引领AI破晓

当前人工智能,尤其是生成式AI,已在创意、效率与沟通层面深刻改变了世界。

然而,李飞飞指出,当前AI在诸多关键领域的应用愿景远未实现。自主机器人的发展仍局限于实验室与特定场景,其"融入日常生活"的设想尚停留于概念阶段;

在科学研究中,AI虽展现出潜力,但距离真正推动疾病诊疗、新材料研发与基础物理探索的效率革命,仍有漫长距离;

在创意赋能方面,无论是帮助学生理解抽象概念、协助建筑师进行空间设计,还是支持创作者构建虚拟世界,AI仍缺乏对人类意图与场景需求的深度洞察,难以实现真正的认知协同。

她进一步强调,根本原因在于AI缺失人类与生俱来的空间智能。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第1张

空间智能是人类认知与文明的基石。它并非高级技能,而是我们通过"感知-行动"循环与物理世界交互的基础能力,驱动着日常行为、非语言沟通、想象力与创造力。从埃拉托斯特尼测量地球周长,到沃森与克里克发现DNA双螺旋,文明重大突破常源于对空间的操控、可视化与推理,这些纯文本无法实现。

遗憾的是,当前AI的空间能力存在根本局限。

尽管多模态大型语言模型(MLLMs)通过海量数据训练,具备了基础空间感知,能分析图像、回答问题,生成逼真图像与短视频;同时,借助传感器与触觉技术进步,先进机器人已在受限环境中操控物体与工具。

但AI的空间能力远未达到人类水平。最先进的多模态大型语言模型在估算距离、方位、尺寸,或通过新角度重建物体实现"心理旋转"等任务上,表现近乎随机猜测。它们无法走出迷宫、识别捷径,也无法预测基本物理规律。AI生成视频也常在几秒后失去连贯性。

她分析道,这些模型对世界的理解是表面与割裂的,缺乏人类整体性、关联性与直觉认知。人类认知是整体性的,涵盖所见之物、万物空间关联及其内在意义。

缺乏这种能力,AI就与物理现实脱节,无法有效驾驶汽车、在家庭与医院操控机器人、提供沉浸式学习娱乐体验,也难以加速材料科学与医学探索。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第2张

通过想象、推理、创造与互动(而非仅描述)理解世界,正是空间智能的力量所在。

因此,李飞飞总结,AI未来在于超越语言界限,发展强大空间智能,这将是实现下一次飞跃的关键。

下一代AI核心:发展"世界模型"

李飞飞指出,构建具空间智能的AI,需超越当前大型语言模型范式,转向发展更根本的"世界模型",其核心是能理解、推理并生成语义、几何、物理和动态规则一致的复杂世界。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第3张

她进一步表示,实现此目标需世界模型具备三种基本能力:首先是生成式能力,即创造感知、几何和物理动态一致的模拟世界,深刻理解时间连续性;

其次是多模态能力,能自然处理图像、视频、文本、动作等输入输出;

最后是交互式能力,能根据输入动作预测世界下一状态,连接感知与行动循环。

然而,构建世界模型挑战远超语言模型。语言是人类认知中纯粹生成现象,而"世界"规则更复杂,其表征维度与复杂性远非一维序列语言可比。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第4张

在World Labs,李飞飞团队致力于取得根本进展:

一是定义新通用训练目标函数,其地位应如语言模型中"下一词预测"。但由于世界模型输入输出空间极复杂,定义此函数本身面临巨大挑战。尽管前路未明,但此函数及内在表征必须准确反映几何与物理定律,体现世界模型作为现实与想象统一载体本质

二是破解大规模训练数据难题,尽管互联网图像与视频构成海量数据源,但核心挑战是从二维信号有效提取三维空间信息。研究关键在于构建能充分利用此规模视觉数据的模型架构。同时,高质量合成数据及深度、触觉等多模态数据不可或缺,未来发展取决于更先进传感系统、更稳健信号提取算法及更强大神经仿真方法;

三是新模型与表征架构,现有范式(如MLLM和视频扩散模型)将数据标记为一维或二维序列,难以胜任计数、长期记忆等基础空间任务。突破需采用3D/4D感知、记忆机制等新型架构。例如,World Labs开发的RTFM模型通过引入空间相关帧作为记忆单元,在保持世界持久性同时实现高效实时生成,展示架构创新方向。

李飞飞认为,尽管挑战巨大,这正是实现AI空间智能突破的关键路径。此研究将催生新一代创意与生产力工具,最终使AI获得与物理世界深度、有效互动的核心能力。

从创意工具到科学伙伴:空间智能三阶段赋能

李飞飞阐述其推动AI发展的核心动机与空间智能应用愿景。她坚信,AI根本目的必须是增强人类能力,而非取代人类,AI应拓展人类创造力、连接效率与生命充实感,并始终尊重人自主性与尊严。在此以人为本理念下,空间智能被视为实现此愿景的关键前沿。

她指出,空间智能应用将分阶段在多领域深化。

短期内,创意工具如World Labs的Marble平台正赋能创作者,使其快速构建迭代可探索3D世界,从而变革电影、游戏、建筑及工业设计等领域故事讲述与空间叙事方式,并催生全新沉浸式互动体验。

中期而言,机器人技术是空间智能具身化核心实践。针对当前机器人训练数据稀缺瓶颈,李飞飞认为,世界模型通过生成高保真模拟数据,能极大扩展机器人学习边界,快速缩小模拟与现实差距,让机器人在海量状态与环境中学习,实现可泛化理解、推理与交互能力。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第5张

在此基础上,机器人要成为真人机协作伙伴,不仅要具感知、规划与行动空间智能,更需与人类目标行为保持同理心,在实验室、家庭等场景中有效辅助人类,又充分尊重其自主性。

此外,李飞飞指出,世界模型将推动机器人突破人形局限、向纳米、软体等多元形态发展,通过一体化建模机器人感知、运动与环境,提供关键仿真训练与评测支持,解锁其特定场景全部潜力。

从长远看,空间智能深远影响将辐射科学、医疗保健与教育等关键领域。

在科学上,它能模拟实验、检验假设并探索极端环境,加速气候科学、材料研究等领域发现。

在医疗领域,它将从分子相互作用模拟、医学影像辅助诊断到环境监测与机器人辅助护理等多层面带来变革。

在教育方面,则能通过将抽象概念具体化、创造沉浸式与交互式学习体验,极大提升学习效率与技能培训效果。

李飞飞最后强调,尽管应用场景无限,但所有发展共同目标始终如一:即利用AI(尤其是空间智能)增强人类专业知识、加速人类发现并深化人类关怀,而非取代人类独有判断力、创造力与同理心。实现此宏伟蓝图,需整个人工智能生态系统集体努力。

空间智能:重构人机关系与产业生态

李飞飞描绘的"空间智能"蓝图,揭示其远不止技术突破,而是驱动下一代人机交互革命基石。传统AI常被定位为"工具",依赖屏幕与文本理解世界,而空间智能让AI真正融入现实环境,成为能感知上下文、理解意图并主动协作的"场景伙伴"。

高德地图董事长刘振飞近期在云栖大会上指出,空间智能将如云计算一样,成为360行与物理世界交互标配基础设施。他强调:"若语言大模型赋予AI思考能力,那么空间智能则赋予AI理解预测物理时空能力,推动AI从对话工具蜕变为行动伙伴"。

此判断揭示技术演进核心方向:当AI不仅能理解指令,更能感知环境、预判需求并在三维空间执行任务时,其价值创造方式将发生质变。

这意味着,智能衡量标准将从处理速度转变为对现实场景适应能力。无论是风口上的VR/AR眼镜、被视为下一代计算平台的机器人,还是重塑交通的自动驾驶汽车,其本质都是必须在三维物理世界自主"生存"的智能体,需精确感知环境、理解物理规律、实时决策并执行灵巧行动。

尽管挑战重重,但李飞飞理论框架正与产业实践融合,勾勒从技术突破到生态构建发展轮廓。

"杭州六小龙"之一群核科技联合创始人黄晓煌明确指出,空间智能是继大语言模型后至关重要的新领域,并将李飞飞研究方向誉为"真正空间智能",认为其包含工具、大模型和数据,而非上一代基于图像或视频理解的监控技术。

他将此视为机器从自动化迈向"具身智能"必经之路,并预言未来机器人数量可能达700亿台,远超人类。面对此智能实体网络,商业模式也将从"向人收费"转向"为机器服务"。

群核科技已从互联网公司转型为空间智能公司,聚焦机器人"空间理解"能力,认为硬件已有企业布局,自身专注智能算法。

与此同时,英诺创新空间创始合伙人邓永强从投资与生态视角提出"AI新大陆"概念,将空间智能提升至文明演进高度。他认为这不仅是技术革命,更是堪比工业革命的"超级周期",核心是从"信息智能"向"具身智能"根本跨越。

他特别强调,AI与传统领域之间"不是替代,而是共生共荣",此理念为技术发展提供更具包容性框架。邓永强预判,2025年将成为空间智能相关技术规模化落地关键元年,而当前"技术范式尚未收敛"窗口期,正是创新者参与定义下一代标准的战略机遇。

空间智能:AI突破扁平世界束缚,迈向立体认知新纪元 空间智能 世界模型 具身AI 产业变革 第6张

空间智能并非单一技术,而是涵盖三维环境感知与重建、定位与姿态估计、空间关系理解与场景解析、运动预测与路径规划、空间记忆与地图管理、人机空间交互的复杂技术体系,既包含对物理世界深度理解,也涉及虚拟空间创造性表达,更需在二者间建立无缝连接桥梁。

从技术维度看,当前挑战远超想象,李飞飞指出的"通用训练目标""大规模数据获取""新型架构设计"三大挑战,仅是此宏大工程初始挑战。

从产业维度看,黄晓煌预见的"向机器收费"模式虽诱人,但前提是必须解决机器人规模化部署、跨场景适应性和成本控制等现实问题。刘振飞设想的"空间基础设施"愿景,也需克服标准化、互联互通和生态构建行业性难题。

此道路注定充满挑战,邓永强强调的"共生共荣"理念提醒我们:空间智能发展不应是技术单方面狂飙突进,而应是技术、伦理与商业协同进化。

在此意义上,空间智能不仅代表AI技术下一个前沿,更是重新定义人机共生关系的集体探索。或许空间智能真正价值不在创造又一技术热点,而在为我们打开重新思考智能本质的窗口。