当前位置:首页 > 科技资讯 > 正文

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破

在三维重建技术日益走向工程化应用的当下,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正快速推动产业化进程,成为业界关注焦点。

然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上,这看似直接却隐含局限。

这一做法面临两大不可逾越的障碍:二维特征在三维空间中难以精确对齐,以及高斯基元数量被像素网格固定,无法根据场景复杂度灵活调整,导致资源分配不均。

VolSplat果断抛弃像素对齐的传统范式,引入“体素对齐”(voxel-aligned)的前馈框架:在三维空间中融合多视图信息,从根本上突破瓶颈,实现更鲁棒、高效且易于工程化的高质量渲染。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第1张

在公开数据集上的对比实验显示,VolSplat在RealEstate10K和ScanNet(室内)数据集上的视觉质量与几何一致性均优于多种像素对齐基线方法,这些数值不仅证实了视觉效果的提升,还体现了几何一致性的显著增强。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第2张

VolSplat 的核心思路:将“对齐”从二维迁移到三维

原有的像素对齐前馈3DGS面临两个无法回避的痛点。

第一,多视图对齐难题:基于2D特征的匹配难以可靠解决多视角间的几何一致性问题——当深度估计不稳、遮挡或视角差异出现时,2D特征在三维空间中对齐不准,常引发浮空伪影与几何畸变。

第二,高斯密度受限:高斯基元的生成被像素网格束缚,无法根据场景复杂度自适应分配;往往导致复杂结构表达不足,而平坦或冗余区域却消耗过多表示容量。

综合来看,这两点直接阻碍了前馈3DGS在稠密视角、复杂结构与大场景下的扩展与稳健表现。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第3张

为突破这些挑战,VolSplat的核心思路直接而有力:不再在二维像素层面孤立预测,而是将多视角的二维特征利用每视图预测的深度图反投影并聚合到统一的三维体素网格中,在这个统一坐标系里进行聚合与多尺度特征融合与细化(采用稀疏3D U-Net实现),最后仅在那些被占据的体素上回归高斯参数。

这一范式转变带来即时且深远的优势:在3D网格内,视图间的不一致被自然消融;高斯密度不再受像素网格限制,而是基于体素的“有无”和复杂度动态分配。具体好处可概括为四点:

(1) 跨视图一致性显著增强:不再完全依赖易错的2D特征匹配,信息在三维空间中融合,更稳定可靠。

(2)高斯密度按需分配:根据场景复杂度动态分配高斯数量,复杂结构处高密度、平坦区域低密度,实现更精细且节省资源的表示。

(3)几何一致性更强:体素聚合与3D U-Net的多尺度细化有效减少“浮点”和伪影,细节与边界更清晰。

(4)易与外部3D信号融合:深度图、点云等3D信号可自然融入体素化流程,无需复杂投影操作。

为便于工程实现与扩展,VolSplat 将整体流程拆解为三个清晰模块:2D特征与深度估计、像素→体素的提升与聚合、以及体素级的特征细化与高斯回归。每个模块各司其职,彼此衔接,既利于分步调试,也方便在工程上作伸缩与优化。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第4张

第一步——2D 特征提取与深度估计(Feature extraction & Depth prediction)

对每张输入图像,VolSplat使用共享的图像编码器(结合卷积与 Transformer 层)提取下采样的二维特征,并基于平面扫描构建每视图成本体积,用以融合邻近视图信息并回归每视图的稠密深度图。该阶段为后续的像素到三维点的反投影提供必要的几何先验与特征描述。

第二步——像素反投影到体素并进行特征聚合(Lifting + Voxelization)

将每个像素依据其预测深度反投影到世界坐标,得到带有图像特征的三维点云,随后把这些点按预设体素大小离散化,对落入同一体素的点的特征做聚合得到初始体素特征,这一步把来自不同视角的特征在3D空间里自然对齐,便于后续体素级处理。

第三步——稀疏3D U-Net细化与基于体素的高斯回归(Sparse 3D refinement+Gaussian prediction)

将初始体素特征输入稀疏3D U-Net解码器,该网络以残差形式预测每个体素的修正项,从而实现多尺度的局部与全局几何上下文融合,这种残差更新有助于网络只学习必要的几何细化而非重建全部特征,既稳健又高效。

随后,仅在被占据的体素上回归每个高斯的参数(位置偏移、协方差、不透明度与颜色系数)。最终使用高斯喷溅渲染新视角,并以像素级与感知损失进行端到端训练。

实验亮点:效果、泛化全面领先

除上述效果外,尤其令人瞩目的是VolSplat跨数据集的零样本泛化能力,在未见过的ACID数据集上,VolSplat依然保持高性能(PSNR 32.65dB),展现出强劲的泛化能力。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第5张

定性结果更直观:在边缘、细节和复杂几何处,VolSplat展现出更少的浮空伪影、纹理错位与几何畸变,高斯在3D空间上的分布也更贴近真实场景的几何分布,而非被像素网格“均匀绑架”。这样的效果在实际产品体验(例如虚拟看房、室内漫游)中直接转化为更稳健、更自然的视觉体验。

VolSplat:基于体素对齐的前馈3D高斯喷溅技术突破 3D Gaussian Splatting  体素对齐 三维重建 前馈式方法 第6张

VolSplat的提出并不是终点,而是提供了一种新的研究方向。它为前馈3D重建打开了全新的可能性:在机器人和自动驾驶中,提供更稳定的三维感知输入;在AR/VR中,实现更加流畅、真实的渲染体验;在三维视觉研究中,为统一的体素框架下融合多模态数据提供新途径。

未来,VolSplat可以作为前馈3D重建的一种创新探索方向,为相关的学术研究和工程应用提供宝贵参考。

论文链接:https://arxiv.org/abs/2509.19297

项目主页:https://lhmd.top/volsplat