当前位置：首页 > 科技资讯 > 正文

SpatialDreamer：融合主动心理想象与几何约束策略的空间智能增强框架

主机测评网
科技资讯
2026-02-12
749

【前沿导读】来自中山大学与穆罕默德·本·扎耶德人工智能大学（MBZUAI）的研究团队联合提出SpatialDreamer框架，该框架借助主动心理模拟与空间认知推理，大幅提升了模型在复杂三维空间任务中的表现。通过模拟人类主动探索、内心想象与逻辑推演的认知闭环，有效克服了当前模型在视角变换、遮挡推断等任务上的瓶颈，为构建具备类人空间智能的人工智能系统奠定了新基础。

尽管当前多模态大语言模型（MLLMs）在图像描述、视觉问答等场景理解任务上已展现出强大能力，但在涉及心理旋转、视角变换、遮挡物体定位等需要深层次空间想象的任务中，其推理能力依然远逊于人类。

现有主流方法大多局限于对静态空间数据的被动解析，未能赋予模型人类所特有的主动构建心理意象并动态修正内部空间表征的认知机制。

以判断遮挡物体位置为例，当需要从不同视角进行推断时，传统模型由于缺乏灵活的心理视角切换能力，常常因信息不足导致推理错误。

为突破上述局限，MBZUAI与中山大学联合团队提出了SpatialDreamer——一种基于强化学习的空间认知框架。该框架通过构建“主动探索—视觉想象—证据融合”的闭环推理流程，使MLLMs能够像人类一样在内心进行空间模拟与动态决策。

SpatialDreamer：融合主动心理想象与几何约束策略的空间智能增强框架空间推理多模态大语言模型强化学习心理想象第1张

论文链接: https://arxiv.org/pdf/2512.07733

SpatialDreamer：融合主动心理想象与几何约束策略的空间智能增强框架空间推理多模态大语言模型强化学习心理想象第2张

SpatialDreamer的核心思想在于模仿人类空间认知的三阶段闭环：

1) 主动探索：模型依据当前观察到的场景信息，自主决策出最具信息增益的自我中心动作，例如“前进0.75米”以接近目标，或“左转45度”以获取侧方视角；

2) 心理想象：调用内置的世界模型（例如SVC，Scene-Conditioned Video Continuation）根据当前状态和选定动作，合成执行动作后新视角下的视觉场景，实现内部视觉模拟；

3) 证据融合与推理：将初始观察与通过想象生成的多视角视觉证据进行整合，基于完整的空间认知链输出最终答案。

这一机制成功将模型从“被动接收信息”提升至“主动目标导向的心理想象”，使其能够在内部构建的三维认知地图中自主规划观察视角、选取关键线索并完成逻辑推理。

针对长时序空间推理任务中反馈信号稀疏、优化困难的挑战，研究团队进一步设计了GeoPO策略优化算法，该算法融合树状探索采样与几何一致性约束，显著提升训练效率与推理质量：

1) 树状分支采样：在每个决策点生成多个候选动作分支，允许模型回溯错误路径并探索多种空间策略；

2) 分层奖励机制：结合任务完成与否的全局奖励与每一步动作效率的局部奖励，提供密集且可解释的反馈信号；

3) 几何一致性惩罚：针对无效探索（如连续同方向移动或反复折返）引入惩罚因子（例如0.9），有效抑制冗余路径，促使模型生成更紧凑、合理的空间轨迹。

实验表明，GeoPO不仅带来了任务成功率的显著提升，还大幅缩短了策略网络的收敛时间。

SpatialDreamer：融合主动心理想象与几何约束策略的空间智能增强框架空间推理多模态大语言模型强化学习心理想象第3张

为了使模型更好地掌握“思考—想象—回答”的推理范式，团队构建了专用的SpatialDreamer-SFT微调数据集。该数据集包含两类样本：一是单轮推理数据（single-pass），即直接根据场景给出答案；二是反思式推理数据（reflective reasoning），通过“主动注入错误→模型自我纠正→重构完整推理路径”的方式生成，显著增强了模型的容错与自我修正能力。