当前位置:首页 > 科技资讯 > 正文

3D数字人:重塑内容创作与交互的未来

在人工智能的浪潮中,3D数字人正悄然改变着我们的内容创作和互动方式。如今,数字人主播和虚拟偶像的动作和表情越来越流畅自然,这背后是一场技术革命:3D数字人已不再是表情僵硬、只能按预设脚本运行的“木偶”,而是能根据指令实时生成丰富的语音、精准的表情和协调的肢体动作,并且成本变得更为合理。

进化的数字人不仅在直播间和客服中心活跃,未来更将在3A级游戏和影视工业领域大展拳脚。然而,你可能不知道的是,3D数字人的滥觞其实是机器人领域。在计算机图形学与机器人学之间,存在着一道“旋转门”,几十年来不断有学者穿越这道门去寻求突破之道。

过去,研究者们用驱动机器人的方式驱动虚拟世界中的数字人;如今,数字人所积累的经验又反过来帮助机器人去理解物理世界的错综复杂。

本期《硅谷101》,主播泓君邀请了魔珐科技创始人兼CEO柴金祥教授。柴教授从2000年左右便在卡内基梅隆大学机器人研究所投身3D数字人研究,已经从事该领域二十余年。泓君与柴教授深入聊了3D数字人的前世今生,它取得了哪些突破性进展,又面临着哪些挑战,以及数字人的数据和模型是如何加速具身智能进化的。

以下是这次对话内容的精选:

01 数字人:下一代内容生产者

泓君:Sora2的发布引起了广泛关注,它似乎让每个人都能轻松生成一段Demo。我们前几天刚开了《硅谷101》的科技大会,并生成了一段让Sam Altman帮我们去宣传的视频。这对你们的业务会有什么影响吗?

柴金祥:相比Sora1,Sora2的进步确实很大。Sora1以风景为主,而Sora2则以人为中心,可以让视频里的人做各种各样的事情。我也大概用了一下,感觉视频生成现在还是受10秒时间的限制,而且物理上的一致性有很多瑕疵。

泓君:问题确实很多。它的视频里有一段皮卡丘和唐老鸭在总统竞选的辩论,可以在原视频上改。比如说把这段辩论变成一个关于AGI的辩论,但我们活动的主题是“Alignment2025”,但你仔细去看的话,它后面的“Alignment”字就是错的,开始乱码了。

柴金祥:对。创作者除了生成视频,还需要能修正错误、调整细节,这能力它还没有。更重要的是,它无法精细控制人的动作和表情。不过,Sora2第一次让人看到了用大模型驱动人物多样动作的可能性。

我们做的是3D数字人,如果最终目标是让人能交流、跳舞、娱乐,那大模型会是什么形态?训练数据又是什么?Sora2说它用所有视频作为训练数据。最近Genie3出来,是3D的生成,给你一种交互型的感觉是吧?但它不是人,它是关于场景相关的。

我们觉得,最终可能需要2D+3D的训练技术结合。我们希望生成的人没有10秒限制、没有瑕疵、物理准确、可控制、实时且成本低。所以我们除了3D训练数据,也开始结合大量视频数据来训练大模型,提升数字人的表达力。

3D数字人:重塑内容创作与交互的未来 3D数字人 AI技术 多模态模型 虚实结合 第1张

泓君:我简单总结一下:Sora2是文生视频,而你们是文生3D。这个3D它可以是在VR领域里面进行展示的,比如说我戴着一个VR头盔,我可以360度地去看到这个人。

柴金祥:是的,这就是2D和3D的区别。Sora2是文生2D视频。而3D放在VR/AR里,就跟现实一样。3D还有一个好处,它能控制,就像人一样,你让它怎么动就怎么动。但2D在像素层面要对它进行动作、表情的精准控制会比较难。

泓君:我看到很多公司展厅屏幕上的数字人是你们做的。除了时长的区别外,它在核心的技术上有什么区别呢?

柴金祥:第一个区别是,屏幕上这个数字人是人机交流的载体。人跟机器交流时,是实时互动的。我们希望端对端延时一般要小于2秒或1.5秒,不能像生成视频那样等10分钟或5分钟。

第二个区别是,当你用文生视频去做的时候,手指是个特别难的事情,经常多一根或少一截。但如果是展厅里数字人为你讲解产品,你肯定是不希望体验很差的。它的动作不能有瑕疵,物理上要准确。

最后一个区别是把3D数字人部署在终端上成本不能高。终端屏幕可能就一万人民币。如果生成视频交互了20分钟即使它能实时做一年放在那也得花很多钱长期也负担不起但从Sora2文生视频的角度来说这个成本它是不能scale up的。

泓君:它的成本是多高?用你们的这个成本是多高?为什么成本之间会有这样的一个差距?

柴金祥:我不一定能给具体数字但可以告诉你一个量级:与大模型做的语音合成相比我们的成本可能是几十分之一。这里核心是2D和3D的区别。3D描述人的动作表情只需要几百个参数而人的肌肉可能也就大几百块你只要去控制一些肌肉就可以了。

泓君:所以你们能把成本降下来是因为有一个自己的端模型可以这样理解吗?

柴金祥:是的我们有一个把文本变成3D多模态表达能力的模型从文本生成语音、表情、动作、手势的参数传到终端屏幕上我们用AI渲染和解算把它变成视频。

02 虚实之间诞生的“双生学科”

泓君:你当初为什么会选择进入3D数字人这个领域?

柴金祥:我2000年去卡内基梅隆大学(CMU)读博士在机器人研究所做的就是这个方向。我的博士论文就是关于如何创建一个可交互的3D数字人以及如何用AI去做动画。

03 AI渲染结算带来的成本革命

泓君:问一个敏感的问题你可以选择不答。你们现在把API接口开放出去肯定有基础接入成本你觉得这个模式能赚钱吗?

04 加速具身智能突破泛化

泓君:我们刚刚聊了很多AI技术如何应用于虚拟世界。那反过来你们现在训练的模型能操控机器人吗?你们试过吗?