当前位置:首页 > 科技资讯 > 正文

华为联手高校打造超大室内场景模型WordGrow

AI大house真来了。

华为携手上海交通大学及华中科技大学,共同推出了名为WordGrow的世界模型,它能够生成面积达1800㎡的超大室内场景,这个场景由19x39块组成,单卡只需30分钟即可渲染出272㎡的区域。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第1张

在这个虚拟世界中,虚拟人能够顺畅导航,绝不会迷路。(小声说:大平层确实需要导航)

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第2张

此外,WordGrow的场景具备连贯的几何拓扑和照片级的真实感外观,智能体可以在复杂的空间布局中自主规划路径。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第3张

这一技术可以说是“走到哪建到哪”,那么它是如何搭建这些场景的呢?

具备连贯的几何拓扑和照片级真实感外观

在以前,想要创建一个像样的3D大场景,会遇到不少挑战。

例如,有些技术会先用2D模型绘制图像,再强行将其转化为3D,但结果往往是在换完视角后,沙发腿歪了、墙壁纹理断了……

另一些方法最多只能创建单个房间,一旦扩展到套房就会遇到问题;更离谱的是,这些方法往往没有布局逻辑——冰箱被塞进卧室,床摆在厨房的情况时有发生。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第4张

现在,WordGrow已经准备好进行“装修”了(不是真的装修),它利用三个核心技术来填补这些“坑”。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第5张

第一步是进行数据精准预处理,从大规模数据集如3D-FRONT中提取优质样本,使用Blender进行场景切片,通过布尔交集对场景进行区块切分,并通过occupancy检测确保区块内容密度(可见内容≥95%)。同时,构建了粗、细两个数据集,粗块用于确定宏观布局,细块保留纹理细节。

第二步是通过3D块补全机制实现无缝拼接。在生成新区块时,结构生成器会先确定3D结构框架,而latent生成器会重建结构化潜变量(SLAT)特征,确保外观风格统一。此外,在输入模型时,会打包融合带噪潜变量、补全区域二进制掩码以及已掩码的已知区域特征,让模型依据现有区块的上下文信息精准生成,从而消除边缘断裂、纹理错位等拼接缝。

第三步是采取粗到精的生成策略,将场景扩展转化为补全缺失块的任务。先通过粗结构模型确定整体规划,如窗户朝向、走廊连接等布局;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别,再调用细结构生成器补全家具、纹理等细节。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第6张

对比可以看出,WordGrow能够生成高分辨率、连续的室内场景,且场景具有真实且连贯的纹理。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第7张

实验数据显示,在3D-FRONT数据集上,WordGrow的几何重建指标MMD、COV均达到SOTA水平。FID(用于评估生成质量的核心指标)低至7.52,大幅优于SynCity、BlockFusion等主流方法。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第8张

即便扩展到7×7块的超大场景,WordGrow的边缘质量仍然稳定。

华为联手高校打造超大室内场景模型WordGrow WordGrow 室内场景 几何拓扑 真实感 第9张

在效率方面,使用单张A100显卡,WordGrow只需30分钟即可生成一个约272㎡的室内场景。这一速度是同类技术的六倍。

免费服务器高防服务器性价比vps