当前位置：首页 > 科技资讯 > 正文

OST-Bench：在线时空理解基准挑战多模态大模型

主机测评网
科技资讯
2026-01-08
1018

多模态大语言模型（MLLMs）在视觉与语言模态融合的感知和推理任务中已经展现出了卓越的能力。而上海人工智能实验室、上海交通大学、香港大学、香港中文大学的研究团队提出的OST-Bench，则从智能体探索场景的动态在线视角切入，为大模型的能力评估带来了新的挑战。

相比于离线或静态的空间智能基准，OST-Bench更准确地反映了具身感知在真实世界中的核心难题。相关代码和数据均已开源。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第1张

论文链接：https://arxiv.org/abs/2507.07984
项目主页：https://rbler1234.github.io/OSTBench.github.io/
Hugging Face 数据集：https://huggingface.co/datasets/rbler/OST-Bench
GitHub 代码库：https://github.com/InternRobotics/OST-Bench

离线鸟瞰全景 VS 在线移步换景

在现实世界中，人类的视野范围有限，眼睛在任意时刻只能关注局部场景。通过持续探索和视角变化，我们逐步构建对全局场景的清晰认知；同时，基于当前和历史观测，我们能够感知自身位置变化以及与先前所见物体的空间关系（例如“我离那把椅子越来越远”或“棕色枕头现在位于我的右后方”）。

与人类类似，真实世界中的智能体通常无法一次性获取全局环境信息，而是依赖连续输入的局部观测，需要在不断“移步换景”中实现在线感知、记忆维护与时空推理。这对于导航、移动操控等具身任务至关重要：例如在导航中，模型需在当前时刻判断“刚才看到的目标现在位于左后方”，并据此决策行动。

随着多模态大模型在各类基准测试中不断刷新记录，研究者开始关注它们在真实世界设定下的表现。在时间维度，期望模型具备在线理解能力；在空间维度，期望模型能基于2D观测构建3D空间布局认知。

然而，以往的空间智能评测多为离线、固定输入长度，而现有的一些在线视频评测基准往往仅考察局部或语义层面的空间感知。OST-Bench则更贴近真实世界场景，相比以往基准具有两大核心特点：

在线设定：模型必须在不断增长的观测序列中进行实时感知、记忆与推理；

跨时空理解：需要同时整合当前画面与历史信息，完成面向时间跨度的复杂空间推理。

正如下图所示，与传统离线空间基准相比，在线设定对模型提出了更高、更接近真实世界的要求。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第2张

基准介绍：「移步换景」为大模型带来了哪些新难题？

传统静态场景理解主要关注物体属性及其静态关系。而探索中的智能体不断改变自身位置和视角，带来持续更新的信息类型与更丰富的问题形态。研究团队据此将动态场景理解划分为三大信息类别：智能体空间状态、智能体可见信息、智能体-物体空间关系。基于这三类信息，研究团队进一步设计了15个子任务，覆盖判断（JUD）、估算（EST）、计数（CNT）、时间定位（TEMP）四类题型。通过规则生成与人工筛选，构建了基准的10k条测试集数据（1.4k个场景）以及用于微调的50k条训练集数据（7k个场景）。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第3张

实验结果：大模型的在线场景时空理解答卷

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第4张

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第5张

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第6张

主流大模型陷入困境：当前主流多模态大模型与人类表现存在显著差距，暴露出跨时空信息推理的能力短板（参考上文表1/表2）。模型准确率随探索步数增加持续下降，表明现有范式难以适应长时序在线设定。

空间增强模型能做好吗？结果可能没那么乐观。采用“空间建模”机制的模型（如Spatial-MLLM、VLM-3R和LLaVA-3D），与其基座模型相比未显示预期提升，反在部分任务上明显退步，并伴有指令遵循能力下降。总体而言，空间增强模型在特定数据分布中表现良好，但在更开放、复杂的在线场景中仍难以稳健发挥。这进一步凸显了OST-Bench在揭示模型真实能力边界方面的价值。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第7张

深入分析：大模型的表现诊断书

1.共性问题聚焦——大模型遇到难题更喜欢走捷径？

通过错误统计发现，模型错误多集中于推理步骤。在对错误案例的深入分析中，研究团队观察到一个典型共性现象：面对复杂时空推理问题时，相比主动回溯历史信息或检索关键线索，模型更倾向于“就地猜测”——仅依据当前片段中的有限信息做出草率推断，而非进行真正的时空整合推理。

研究团队将这种现象称为“时空推理捷径（Spatio-temporal Reasoning Shortcut）”：模型看似给出合理答案，但推理过程缺乏充分依据，往往只是“表面合理”。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第8张

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第9张

绿色/红色分别代表模型推理正确/错误的位置

2.跨视角推理测评子集——对于MLLM的专项补考

为更精确定位模型能力边界，研究团队设计了一个针对性子集。与先前测评不同，此次（1）按难度分级：研究团队根据是否需要多步复杂推理（如下图）以及是否提前提供关键帧，将问题划分为四个难度等级。相比单步关联，多步空间关联任务要求更强推理能力；相比仅有关键帧输入，全视频输入需在冗长观察中识别解答关键帧。

（2）补考结果表明：复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型在在线时空理解任务中准确率受限的两大关键因素。

OST-Bench：在线时空理解基准挑战多模态大模型多模态大语言模型 OST-Bench 在线时空理解具身感知第10张

3.微调实验——提前“预习”在OST-Bench的帮助有多大？

为评估模型能力上限，研究团队基于来自7000个场景的5万条问答数据对多种模型进行微调实验。所有模型分数提升超过10%，证明“提前预习突击”确实有效。然而，团队发现涉及复杂时空推理的任务仍难突破50%准确率，说明单纯微调不能触及问题本质；此外，模型在部分题型上呈现明显“背答案”倾向而非真正理解。微调后模型还易“变得不听话”，无法稳定遵守格式进行答案解释。

现象表明：微调可带来提升，但这种提升更似“题海战术式的熟练”，而非“机制上的理解进步”。在此领域，缺乏结构和范式突破，仅靠数据刷题无法取得高分。要攻克OST-Bench，必须依赖更强模型设计或训练策略。