当前位置：首页 > 科技资讯 > 正文

在线时空基准挑战：多模态大模型的未来之路

主机测评网
科技资讯
2026-05-04
230

多模态大语言模型（MLLMs）在视觉与语言融合任务中展现了非凡能力。而由上海人工智能实验室、上海交通大学等学术机构提出的OST-Bench，则从智能体动态在线视角出发，为大模型设定了新的挑战。

相较于离线/静态空间智能基准，OST-Bench更精准地反映了具身感知在真实世界中的核心挑战。其代码和数据均已开源。

在线时空基准挑战：多模态大模型的未来之路多模态大模型在线时空理解 OST-Bench 跨时空推理第1张

论文链接：https://arxiv.org/abs/2507.07984
项目主页：https://rbler1234.github.io/OSTBench.github.io/
Hugging Face 数据集：https://huggingface.co/datasets/rbler/OST-Bench
GitHub 代码库：https://github.com/InternRobotics/OST-Bench

离线视角与在线探索：两种模式的对比

在现实世界中，我们的视野有限，眼睛只能聚焦于局部场景。随着探索深入，移步换景，我们逐步构建对全局场景的认识，并感知自身位置变化及与物体关系（如“我离那把椅子越来越远”“棕色的枕头现在在我的右后方”）。

智能体在真实世界中也依赖连续局部观测，需在“移步换景”中完成在线感知、记忆维护与时空推理，这对导航、移动操控等具身任务至关重要。

随着多模态大模型在各类基准上不断刷新纪录，人们开始关注它们在真实世界中的表现，希望模型具备在线理解能力和基于2d观测构建3d空间布局认知的能力。

然而，以往的空间智能评测多为离线、固定输入长度，而在线视频评测基准往往只考察局部或语义层面的空间感知。OST-Bench则更贴近真实世界场景，具有两大核心特点：

在线设定：模型需在不断增长的观测中进行实时感知、记忆与推理；

跨时空理解：需结合当前画面与历史信息，完成面向时间跨度的复杂空间推理。

如下图所示，与传统离线空间基准相比，在线设定对模型提出了更高、更接近真实世界的要求。

在线时空基准挑战：多模态大模型的未来之路多模态大模型在线时空理解 OST-Bench 跨时空推理第2张

基准介绍：大模型面临的新挑战

传统静态场景理解关注物体属性及其静态关系。而探索的智能体中不断改变位置和视角，带来持续更新的信息类型与更丰富的问题形态。研究团队将动态场景理解划分为三大信息类别：智能体空间状态、智能体可见信息、智能体 - 物体空间关系。基于这三类信息，设计了15个子任务，覆盖判断（JUD）、估算（EST）、计数（CNT）、时间定位（TEMP）四类题型。

在线时空基准挑战：多模态大模型的未来之路多模态大模型在线时空理解 OST-Bench 跨时空推理第3张