多模态大语言模型(MLLMs)在视觉与语言融合任务中展现了非凡能力。而由上海人工智能实验室、上海交通大学等学术机构提出的OST-Bench,则从智能体动态在线视角出发,为大模型设定了新的挑战。
相较于离线/静态空间智能基准,OST-Bench更精准地反映了具身感知在真实世界中的核心挑战。其代码和数据均已开源。
在现实世界中,我们的视野有限,眼睛只能聚焦于局部场景。随着探索深入,移步换景,我们逐步构建对全局场景的认识,并感知自身位置变化及与物体关系(如“我离那把椅子越来越远”“棕色的枕头现在在我的右后方”)。
智能体在真实世界中也依赖连续局部观测,需在“移步换景”中完成在线感知、记忆维护与时空推理,这对导航、移动操控等具身任务至关重要。
随着多模态大模型在各类基准上不断刷新纪录,人们开始关注它们在真实世界中的表现,希望模型具备在线理解能力和基于2d观测构建3d空间布局认知的能力。
然而,以往的空间智能评测多为离线、固定输入长度,而在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench则更贴近真实世界场景,具有两大核心特点:
在线设定:模型需在不断增长的观测中进行实时感知、记忆与推理;
跨时空理解:需结合当前画面与历史信息,完成面向时间跨度的复杂空间推理。
如下图所示,与传统离线空间基准相比,在线设定对模型提出了更高、更接近真实世界的要求。
传统静态场景理解关注物体属性及其静态关系。而探索的智能体中不断改变位置和视角,带来持续更新的信息类型与更丰富的问题形态。研究团队将动态场景理解划分为三大信息类别:智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息,设计了15个子任务,覆盖判断(JUD)、估算(EST)、计数(CNT)、时间定位(TEMP)四类题型。
主流大模型困境:当前主流多模态大模型与人类存在显著性能差距,暴露出跨时空信息推理的能力短板。模型的准确率随探索步数持续下降,说明现有范式难以适应长时序的在线设定。
空间增强模型表现:结果可能不尽人意。“空间建模”机制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D)相比基座模型没有显著提升,部分任务上甚至退步,伴随指令遵循能力下降。总体来看,空间增强模型在开放、复杂的在线场景中难以稳健发挥。
错误统计显示模型犯错集中在推理步骤。研究团队发现模型在面对复杂时空推理时,更倾向于“就地猜测”,仅依据当前片段的有限信息做出推断,而非真正整合时空信息。
这种现象被称为“时空推理捷径”:模型看似给出合理答案,但推理过程无充分依据,仅为“表面合理”。
(a) 按难度分级:研究团队将问题划分为四个难度等级,对比单步关联和多步空间关联任务。多步空间关联任务要求更强的推理能力。(b) 补考结果表明:复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型准确率受限的两大关键因素。
(a) 研究团队基于7000个场景的5万条问答数据对多种模型进行微调实验。所有模型分数均提升超过10%,证明“提前预习”有效。(b) 然而,涉及复杂时空推理的任务仍难以突破50%准确率,说明单纯微调无法触及问题本质;部分题型上模型呈现“背答案”倾向而非真正理解。
OST-Bench提出了一个在线的时空场景理解基准,通过评估多个多模态大模型,揭示了当前模型在“在线时空理解”任务中的深层短板,为未来模型发展指明了方向:突破复杂空间推理能力与长期记忆机制将是下一代多模态模型迈向真实智能世界的关键一步。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542637.html