当前位置：首页 > 科技资讯 > 正文

英伟达3D通用模型革新：AI生成数据或颠覆传统标注

智东西2月3日最新报道，英伟达宣布其开创性的3D通用模型论文将于2026国际3D视觉会议发表，其预印本已在去年7月问世。该论文构建了一种新型3D世界构建范式，验证“AI生成的3D合成数据”能规模化替代人工标注，大幅削减视觉模型预训练成本。

论文的核心成果是3D-GENERALIST模型，该模型采用统一框架，将3D环境的布局、材质、光照、资产等核心要素纳入序贯决策框架。研究团队提出了基于CLIP评分的自改进微调策略，使模型在后续生成中可自主修正错误。

论文作者中有8位华人，第一、二作者均为中国留学生，包括来自清华“姚班”的斯坦福大学助理教授吴佳俊。

英伟达3D通用模型革新：AI生成数据或颠覆传统标注 3D-GENERALIST AI生成数据自改进机制物理合理性第1张

在CES 2025上，英伟达推出了世界基础模型平台Cosmos。在CES 2026演讲中，黄仁勋再次强调“Physical AI”为核心，将Cosmos定位为“底层代码”与“世界模拟器”。此外，他还发布了Cosmos Reason 2，使AI不仅能生成世界，还能用自然语言进行链式因果推理。

3D-GENERALIST如何为英伟达的Cosmos补全拼图并实现技术突破？我们尝试从论文中寻找答案。

01 当前挑战：仅生成3D图像，缺乏独立交互能力

创建可交互3D环境仍面临诸多挑战。例如，现有技术多聚焦于单一环节优化，难以实现全要素协同。生成的场景缺乏可分离、可操作的物体和表面，生成数据不适合需要精准标注的应用或机器人交互仿真场景。

简而言之，现有技术只能生成整体3D图像，无法实现虚拟世界中物体间的独立交互。而3D-GENERALIST正是为了解决这个问题。

斯坦福和英伟达研究团队的核心思路是将“设计师”扩展为“建筑师团队”，细化每个步骤并分配专人执行。

具体步骤包括：通过全景扩散模型生成360°引导图像，采用“场景性策略”分三步进行房间基础结构提取、墙体分割和门窗标注。最后由VLM（视觉语言模型）程序化生成3D房间。

英伟达3D通用模型革新：AI生成数据或颠覆传统标注 3D-GENERALIST AI生成数据自改进机制物理合理性第2张

研究团队以VLM为决策“大脑”，输入多视角场景渲染图和文本提示，输出代码形式的具体动作指令，由工具API执行实时更新。

为了让虚拟场景中的物体实现独立交互，研究团队设计了资产级优化策略，通过GPT-4o识别容器类资产，结合网格表面检测技术精准定位有效区域。引入视觉语言模型Molmo-7B确定小物体放置像素点，通过3D射线转换实现高精度放置。

研究团队引入了自改进微调机制，通过CLIP评分筛选最优动作进行微调。规范了场景领域特定语言，确保VLM输出与工具API兼容。使用的上下文库显著提升CLIP对齐分数。

论文作者包括斯坦福AI实验室的博士生Fan-Yun Sun、斯坦福视觉与学习实验室的Shengguang Wu等。Sun博士在读期间参与英伟达研究院工作，并创办了AI游戏公司Moonlake。Wu博士则曾在Qwen团队担任实习生。

吴佳俊教授是斯坦福大学计算机科学和心理学的助理教授，曾师从屠卓文教授。他的团队致力于物理场景理解研究，包括多模态感知、四维物理世界的视觉生成等。

3D-GENERALIST通过统一决策序列和自改进机制显著提升了复杂3D场景的构建效率与物理合理性。它验证了高质量合成数据规模化替代人工标注的可行性，有望降低下游视觉与机器人模型训练的成本门槛。

本文由主机测评网于2026-04-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260434930.html