人工智能技术正深刻改变家居设计领域,一场革命性的突破已经到来。
华为携手上海交通大学与华中科技大学,共同研发了名为WorldGrow的世界模型,该模型能够生成面积高达1800平方米的宏大室内场景(由19x39区块构成),仅需单张A100显卡,30分钟即可完成272平方米的生成。
模型中的虚拟人能够实现流畅导航,即使在复杂的大平层空间中也不会迷失方向。(注:大平层确实需要高效的导航系统)
同时,生成场景具备连贯的几何拓扑和照片级真实感外观,智能体可在复杂布局中自主规划最优路径。
这近乎实现了“随走随建”的愿景,那么场景具体是如何搭建的呢?
以往构建高质量3D大场景面临诸多挑战。
例如,部分技术依赖2D模型生成图像再转换为3D,但切换视角时可能出现物体扭曲或纹理断裂等问题。
一些方法仅能生成单个房间,扩展到多房间场景时力不从心;
更甚者缺乏布局逻辑,导致家具摆放混乱,如冰箱置于卧室或床铺出现在厨房。
现在,WorldGrow模型通过三项核心技术有效解决了这些难题。
第一步是数据精准预处理:从3D-FRONT等大规模数据集中提取优质样本,利用Blender进行场景切片,通过布尔运算对场景进行区块分割,并基于占用检测确保区块内容密度(可见内容≥95%)。
同时,构建了粗粒度和细粒度数据集,粗块用于确定宏观布局,细块则保留精细纹理细节。
第二步采用3D块补全机制实现无缝拼接:生成新区块时,先由结构生成器确定3D框架,再由潜在生成器重建结构化潜变量(SLAT)特征,保障外观风格统一。
在模型输入中,将带噪潜变量、补全区域二进制掩码和已掩码的已知区域特征融合,使模型能依据现有区块上下文精准生成,消除边缘断裂和纹理错位等拼接痕迹。
第三步是粗到精生成策略:将场景扩展转化为补全缺失块的任务。先通过粗结构模型敲定整体规划(如窗户朝向、走廊连接等布局),随后对粗结构进行三线性插值上采样至细块分辨率,再调用细结构生成器补充家具、纹理等微观细节。
对比可见,WorldGrow能够生成高分辨率、连续性的室内场景,且纹理真实而连贯。
实验数据显示,在3D-FRONT数据集上,其几何重建指标MMD和COV均达到SOTA水平,FID(评估生成质量的核心指标,数值越低越优)低至7.52,大幅领先SynCity、BlockFusion等主流方法;
即便扩展到7×7块的大型场景,边缘质量依然保持稳定。
效率上,单张A100显卡仅需30分钟即可生成10×10区块(约272平方米)的室内场景,速度是同类技术的6倍。
本文的第一作者是上海交通大学的Sikuang Li和Chen Yang,该项研究在他们于华为实习期间完成。
Chen Yang目前仍是华为的研究实习生,专注于计算机视觉和计算机图形学领域,导师之一是本研究的通讯作者、AI领域专家田奇。
田奇,华为终端BG首席科学家,国际欧亚科学院院士,ACM/IEEE Fellow。
论文地址:https://arxiv.org/abs/2510.21682
本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117734.html