人类能够直观地理解三维空间的几何形态与语义信息,然而人工智能系统在兼顾这两方面时面临显著困难。
传统技术将三维重建(低层几何)与空间认知(高层语义)分离处理,导致误差传播且缺乏泛化能力。而新兴方法试图将三维模型与特定视觉语言模型固定结合,这不仅约束了感知范围(例如,难以区分同类物体的不同实例),还限制了向更强大下游任务拓展的灵活性。
如今,南洋理工大学与StepFun联合推出了IGGT(实例接地的几何Transformer),这是一种创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融合为一体。
本研究的核心贡献包括:
提出IGGT,一个大型统一Transformer,在单一模型中端到端训练,统一了空间重建和实例级上下文理解的知识。
构建了全新的InsScene-15K大规模数据集,包含15,000个场景、2亿张图像,并通过新颖数据管线标注了高质量、3D一致的实例级掩码。
首创“实例接地的场景理解”范式。IGGT不与任何特定VLM绑定,而是生成实例掩码作为“桥梁”,使其能以“即插即用”方式与任意VLMs(如CLIP、OpenSeg)和LMMs(如Qwen-VL 2.5)无缝集成。
多应用支持: 该统一表示极大扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型。
InsScene-15K数据集通过由SAM2驱动的新颖数据管理流程构建,整合了三种不同来源的数据。
图2
合成数据(如Aria、Infinigen):
在模拟环境中,RGB图像、深度图、相机位姿和物体级分割掩码同时生成,掩码准确无误,直接使用。
真实世界视频采集(如RE10K):
如图2(a),定制化SAM2视频密集预测管线。在第0帧使用SAM生成初始掩码提议,然后通过SAM2视频对象分割器时间传播。为处理新对象或避免漂移,迭代添加新关键帧。最后执行双向传播以确保时间一致性。
真实世界RGBD采集(如ScanNet++):
如图2(b),掩码优化流程。将粗糙3D标注投影到2D图像获得初始GT掩码,同时使用SAM2生成精细掩码提议。关键步骤是匹配与合并,为精细掩码分配正确ID,提升2D掩码质量。
IGGT架构概览:
输入图像编码为统一Token表示,由几何头和实例头处理,同时生成高质量几何重建和实例接地聚类。
IGGT架构由三部分构成:
统一Transformer
使用预训练DINOv2提取图像块级Token,通过24个注意力模块进行视图内自注意力和全局视图交叉注意力,编码为强大统一Token表示Ti。
双解码头与跨模态融合
统一Token送入两个并行解码器:几何头预测相机参数、深度图和点图;实例头解码实例特征。跨模态融合块通过滑动窗口交叉注意力将几何特征嵌入实例表示,增强空间感知。
3D一致性对比监督
设计多视角对比损失Lmvc,在特征空间中拉近同一3D实例的不同视角像素特征,推开不同实例特征。
其中m(pi)和m(pj)是像素pi和pj的实例ID,fpi和fpj是对应实例特征。
核心思想是将3D模型统一表示与下游语言模型解耦。不同于以往方法将3D模型与特定语言模型紧密耦合,IGGT使用无监督聚类将实例特征分组,生成3D一致2D实例掩码作为桥梁,实现与VLMs和LMMs即插即用集成。
这种解耦范式扩展应用范围:
相比已有方法,IGGT是唯一同时支持重建、理解和跟踪的模型,并在理解和跟踪指标上大幅提升。
在实例3D跟踪任务上,IGGT的跟踪IOU和成功率高达70%和90%,是唯一能成功跟踪物体消失又重新出现的模型。
IGGT与SAM2和SpaTracker+SAM比较。所有实例用不同ID和颜色可视化。
团队进行可视化实验,IGGT能生成3D一致的实例特征,在多个视图中保持区分性:同一类别多个实例在PCA空间呈现相似但可区分颜色。
将3D一致PCA结果与实例特征聚类掩码可视化。PCA中相似颜色表示特征相似度高。对于聚类掩码,同一对象实例在多视图中共享相同颜色。
在2D/3D开放词汇分割任务上,得益于实例接地范式,可无缝接入最新VLM提升查询性能。
Scannet和Scannet++上2D开放词汇分割定性结果:
Scannet和Scannet++上3D开放词汇分割定性结果。
此外,利用实例掩码构建视觉提示,接入如Qwen-VL等LMM,实现更复杂针对场景中特定物体的查询与问答。相反,即使当前最先进LMM模型,在处理多视图或三维场景理解仍有局限。
与vanilla Gemini 2.5 Pro相比,QA场景理解应用:
论文链接:https://arxiv.org/abs/2510.22706
项目主页:https://lifuguan.github.io/IGGT_officialHuggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118404.html