人类能自然地感知3D世界的几何结构与语义内容,但对AI而言,兼顾两者一直是个巨大挑战。
传统方法将3D重建与空间理解分开处理,导致错误累积且难以泛化。而新方法尝试将3D模型与特定视觉语言模型“绑定”,这限制了模型的感知能力并阻碍了其扩展性。
NTU联合StepFun提出了IGGT(Instance-Grounded Geometry Transformer),一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解结合。
为解决上述问题,本研究的主要贡献包括:
多应用支持:该统一表示极大地扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答(QA)的统一模型。
InsScene-15K数据集通过新颖的数据管理流程构建,由SAM2驱动,并整合三种不同来源的数据,每种来源的处理方式不同。
合成数据 (Synthesis Data - 如 Aria, Infinigen):
在模拟环境中同时生成RGB图像、深度图、相机位姿和物体级分割掩码。这些掩码无需后处理,直接使用。
真实世界视频采集 (Video Captured - 如 RE10K):
使用定制化的SAM2视频密集预测管线。首先,在视频的第0帧使用SAM生成密集初始掩码提议,然后传播这些掩码。为了处理新对象或避免漂移,管线会迭代添加新关键帧并双向传播以确保时间一致性。
真实世界RGBD采集 (RGBD Captured - 如 ScanNet++):
这是一个掩码优化流程。流程首先将粗糙的3D标注投影到2D图像上,同时使用SAM2生成细粒度掩码提议。关键步骤是匹配与合并,将精细掩码与粗糙GT掩码对齐并分配正确的ID。
IGGT架构概览:
输入图像被编码为统一的Token表示,由几何头和实例头分别处理以生成高质量的几何重建和实例接地的聚类结果。
统一 Transformer (Large Unified Transformer)
模型使用预训练的DINOv2提取图像块级Token。通过注意力模块对多视图图像的Token进行自注意力和全局交叉注意编码为统一的Token表示。
双解码头与跨模态融合 (Downstream Heads and Cross-Modal Fusion)
统一Token被送入两个并行的解码器:Geometry Head负责预测相机参数、深度图和点图;Instance Head采用DPT-like架构解码实例特征。跨模态融合块通过滑动窗口交叉注意力将几何头特征嵌入实例表示中,增强实例特征的空间感知能力。
3D 一致性对比监督 (3D-Consistent Contrastive Supervision)
设计多视角对比损失Lmvc,在特征空间中拉近不同视角但属于同一实例的像素特征,同时推开不同实例的特征。
将3D模型的统一表示与下游的特定语言模型(VLMs或LMMs)解耦。
这不同于以往的方法,通常将3D模型与特定语言模型紧密耦合或强行对齐,限制了模型的感知能力和扩展性。首先利用无监督聚类将IGGT预测的实例特征分组,然后将场景分割为不同对象实例。这些聚类结果被重新投影以生成3D一致的2D实例掩码,实现与各种VLMs和LMMs的即插即用集成。
相比于已有方法,IGGT是唯一能同时做到重建、理解和跟踪的模型,并在理解和跟踪指标上大幅提升。
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543714.html