当前位置:首页 > 科技资讯 > 正文

腾讯混元3D模型:高效普及,开启全民3D创作时代

8月15日,腾讯混元团队宣布推出3D世界模型的Lite版本。与以往26GB的显存需求相比,此次通过引入动态FP8(8位浮点格式)量化技术,将显存需求直接降至17GB以下,消费级显卡也能流畅运行。

此前,腾讯混元3D世界模型的FP32版本虽能完整保留所有细节,但显存占用极高。其参数可能超过十亿个,通常需要配备大容量VRAM的GPU来提升推理速度,因此消费级显卡根本无法支持。简单来说,FP32、FP16、FP8代表不同的「精度等级」。过去采用高精度的FP32技术时,虽能实现极高的精度还原,却会占用大量显存,还可能保留不必要的细节。

此次动态FP8量化技术的核心,在于能实时监测模型运行时的数据分布,并针对不同模块进行动态适配:大部分关键区域采用FP16精度,非关键部分则动态调整为FP8精度。这一技术大幅降低了显存占用,虽然在部分区域适当降低了精度,却让个人玩家也能轻松使用3D世界模型。

腾讯混元3D重塑3D建模流程

腾讯混元 3D 世界模型是行业内首个开源可编辑的世界生成模型,能根据用户提供的图片或文字信息,直接生成完整、可编辑且可交互的世界模型,可直接应用于游戏开发、特效制作、教育仿真等场景。

腾讯混元3D模型:高效普及,开启全民3D创作时代 腾讯混元3D 3D建模 平民化 AI辅助 第1张

图源:腾讯混元3D官网

与腾讯混元模型此前的 3D 模型 AI 生成功能相比,此次推出的 3D 世界模型生成的内容更为丰富,涵盖环境风格、室内外场景、光线渲染等多个因素。传统 3D 场景开发耗时极长,而一键生成式场景带来的效率提升令人惊叹。

那么,面对如此复杂的场景开发,混元 3D 世界模型是如何快速生成 360° 沉浸式视觉空间的呢?从模型架构来看,全景世界图像生成技术作为连接文字、图片与世界的统一代理系统,会先生成初始化世界的全景图,从而实现 360° 的全覆盖场景。

腾讯混元3D模型:高效普及,开启全民3D创作时代 腾讯混元3D 3D建模 平民化 AI辅助 第2张

图源:腾讯混元3D官网 混元世界模型 1.0 的模型架构

随后,系统会将整个 3D 世界解构为不同的清晰层级,再基于这些层级进行 3D 世界重建,最终形成 3D 世界模型。相较于传统 3D 场景开发,这种一键生成式场景不仅能节省大量时间,还能输出标准化的可漫游 3D Mesh 资产。

尽管它无法完全还原文字中的所有要求,但已经能做到初步构建出前景、背景以及简单的场景细节。直接输出 3D Mesh 资产带来了格式的统一和学习成本的降低。当 AI 能够完成场景解构和 3D 构建工作时,用户的主观能动性就成了决定生成场景的唯一变量。

3D模型起风了,25年走向平民化?

腾讯此次将混元 3D 世界模型普及至消费级显卡,目的十分明确——吸引广大开发者与创作者涌入 “腾讯混元 3D” 生态。该模型支持从 3D 模型到 3D 世界场景的全流程内容生成。

当前市面上支持 3D 模型生成的 AI 大模型不在少数。其中,硅谷初创企业 VAST 于 2024 年发布的 AI 3D 基础模型 Tripo AI ,凭借独特的产品结构脱颖而出。与面向更广泛用户的腾讯混元 3D 不同,Tripo AI 的定位更偏向专业创作者。

而 Meshy AI 的核心优势在于更完善的社区功能:用户可在社区内浏览其他创作者的 3D 模型作品。Luma AI 推出的 GENIE 工具则提供 API 接口,用户可通过该接口直接将视频内容转化为 3D 模型。

此次腾讯推出适配消费级显卡的混元 3D 世界模型 Lite 版,无疑将吸引更多创作者加入其生态。用户规模的增长,又将进一步推动反馈迭代与应用场景拓展。

AI 3D 化近乎 “零学习成本” 的特性正推动其快速渗透至各行业。在建筑规划、室内设计等场景中,工作人员无需复杂学习即可输出场景内容。这种 “虚拟模型 + 实体行业” 的联动既能提升用户粘性又能通过高度自定义内容让用户产生归属感。

3D模型普及, 3D 建模师会因此失业吗?

尽管这类能快速生成 3D 模型的工具会对行业产生冲击但小雷认为以当前 AI 3D 模型的能力想要完全取代 3D 建模师基本不可能。

正如前文所说当前的 AI 3D 模型尚无法实现真正的用户个性化其生成的产物本质仍是基于大模型学习数据所产出的 “复刻式内容”。这类缺乏个性的内容终究成不了优秀的作品。