当前位置:首页 > 科技资讯 > 正文

英伟达3D通用模型革新:AI生成数据或颠覆传统标注

智东西2月3日最新报道,英伟达宣布其开创性的3D通用模型论文将于2026国际3D视觉会议发表,其预印本已在去年7月问世。该论文构建了一种新型3D世界构建范式,验证“AI生成的3D合成数据”能规模化替代人工标注,大幅削减视觉模型预训练成本

论文的核心成果是3D-GENERALIST模型,该模型采用统一框架,将3D环境的布局、材质、光照、资产等核心要素纳入序贯决策框架。研究团队提出了基于CLIP评分的自改进微调策略,使模型在后续生成中可自主修正错误。

论文作者中有8位华人,第一、二作者均为中国留学生,包括来自清华“姚班”的斯坦福大学助理教授吴佳俊。

英伟达3D通用模型革新:AI生成数据或颠覆传统标注 3D-GENERALIST AI生成数据 自改进机制 物理合理性 第1张

在CES 2025上,英伟达推出了世界基础模型平台Cosmos。在CES 2026演讲中,黄仁勋再次强调“Physical AI”为核心,将Cosmos定位为“底层代码”与“世界模拟器”。此外,他还发布了Cosmos Reason 2,使AI不仅能生成世界,还能用自然语言进行链式因果推理。

3D-GENERALIST如何为英伟达的Cosmos补全拼图并实现技术突破?我们尝试从论文中寻找答案。

01 当前挑战:仅生成3D图像,缺乏独立交互能力

创建可交互3D环境仍面临诸多挑战。例如,现有技术多聚焦于单一环节优化,难以实现全要素协同。生成的场景缺乏可分离、可操作的物体和表面,生成数据不适合需要精准标注的应用或机器人交互仿真场景。

简而言之,现有技术只能生成整体3D图像,无法实现虚拟世界中物体间的独立交互。而3D-GENERALIST正是为了解决这个问题。

02 研究方法:引入自改进机制,多模型协同工作

斯坦福和英伟达研究团队的核心思路是将“设计师”扩展为“建筑师团队”,细化每个步骤并分配专人执行。

具体步骤包括:通过全景扩散模型生成360°引导图像,采用“场景性策略”分三步进行房间基础结构提取、墙体分割和门窗标注。最后由VLM(视觉语言模型)程序化生成3D房间。

英伟达3D通用模型革新:AI生成数据或颠覆传统标注 3D-GENERALIST AI生成数据 自改进机制 物理合理性 第2张

研究团队以VLM为决策“大脑”,输入多视角场景渲染图和文本提示,输出代码形式的具体动作指令,由工具API执行实时更新。

为了让虚拟场景中的物体实现独立交互,研究团队设计了资产级优化策略,通过GPT-4o识别容器类资产,结合网格表面检测技术精准定位有效区域。引入视觉语言模型Molmo-7B确定小物体放置像素点,通过3D射线转换实现高精度放置。

03 技术支撑:三大关键技术助力

研究团队引入了自改进微调机制,通过CLIP评分筛选最优动作进行微调。规范了场景领域特定语言,确保VLM输出与工具API兼容。使用的上下文库显著提升CLIP对齐分数。

04 研究团队:华人创企CEO、清华姚班天才等

论文作者包括斯坦福AI实验室的博士生Fan-Yun Sun、斯坦福视觉与学习实验室的Shengguang Wu等。Sun博士在读期间参与英伟达研究院工作,并创办了AI游戏公司Moonlake。Wu博士则曾在Qwen团队担任实习生。

吴佳俊教授是斯坦福大学计算机科学和心理学的助理教授,曾师从屠卓文教授。他的团队致力于物理场景理解研究,包括多模态感知、四维物理世界的视觉生成等。

05 未来展望:降低模型与机器人训练成本

3D-GENERALIST通过统一决策序列和自改进机制显著提升了复杂3D场景的构建效率与物理合理性。它验证了高质量合成数据规模化替代人工标注的可行性,有望降低下游视觉与机器人模型训练的成本门槛。