当前位置：首页 > 科技资讯 > 正文

3D数字人的技术革命：虚拟交互与机器人智能的融合之路

主机测评网
科技资讯
2026-01-17
606

在人工智能飞速发展的当下，3D数字人正深刻变革着内容创作与互动模式。你可能已经注意到，数字人主播与虚拟偶像的表现越来越自然流畅。这背后是一场数字人技术的重大革新：如今的3D数字人已告别表情僵硬、仅能按预设脚本运行的“木偶”阶段；它们能够依据指令实时生成丰富语音、精准表情与协调肢体动作，同时成本变得可控可接受。

进化的数字人不仅活跃于当下的直播间与客服中心，未来更将在3A级游戏和影视工业领域大展拳脚。然而，鲜为人知的是，3D数字人起源于机器人领域。在计算机图形学与机器人学之间，存在一道连接虚拟与现实的“旋转门”，数十年来不断有学者穿梭其中寻求突破之道。

过去，研究者采用驱动机器人的方式来驱动虚拟数字人；如今，数字人积累的经验又反哺机器人，助其理解物理世界的错综复杂。

本期《硅谷101》，主播泓君邀请了魔珐科技创始人兼CEO柴金祥教授。柴教授自2000年左右便在卡内基梅隆大学机器人研究所投身3D数字人研究，深耕该领域二十余年。泓君与柴教授深入探讨了3D数字人的前世今生、突破性进展、当前挑战，以及数字人数据与模型如何加速具身智能的进化。

以下是本次对话内容的精选：

01 数字人：下一代内容生产者

泓君：近日，硅谷各界关注Sora2，许多人用它生成演示视频，例如我们《硅谷101》科技大会上，就创建了一段Sam Altman宣传大会的Sora2视频。屏幕中的形象颇具数字人特征，这对你们的业务会产生影响吗？

柴金祥：我认为Sora2相比Sora1进步显著，Sora1以风景为主，Sora2则以人为核心，让人物在视频中执行多样动作。我试用后感到，首先视频生成仍受10秒时长限制，未突破时间约束；其次物理一致性是关键问题，尽管刷屏效果不错，但实际操作中仍存不少瑕疵。

泓君：问题确实多。例如皮卡丘与唐老鸭总统竞选辩论视频，我尝试改为在《硅谷101》关于AGI的辩论，主题是“Alignment2025”，但仔细看背景文字已出现乱码。

柴金祥：是的。创作者不仅需要生成视频，还需修正错误、调整细节，这能力它尚未具备。更重要的是，它无法精细控制人物的动作和表情。但Sora2首次展示了大模型驱动人物多样动作的潜力。

我们专注3D数字人，若最终目标是实现人物交流、舞蹈、娱乐，那么大模型形态如何？训练数据又是什么？Sora2称使用所有视频数据训练。近期Genie3推出3D生成，赋予交互感，但它聚焦场景而非人物。

我们认为，最终可能需要结合2D与3D训练技术，旨在生成无时长限制、无瑕疵、物理准确、可控制、实时且低成本的数字人。因此，除了3D训练数据，我们也开始融合大量视频数据训练大模型，以提升数字人表现力。若模型优化得当，视频数据具备生成能力。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第1张

泓君：简言之，Sora2是文生视频，你们是文生3D。这3D数字人可于VR环境中展示，例如佩戴VR头盔时可360度观察人物。

柴金祥：是的，即2D与3D之别。Sora2是文生2D视频。3D应用于VR/AR中，能模拟现实体验。3D另一优势在于可控性，如同真人般按指令行动。而2D在像素层面实现精准动作表情控制则较困难。

泓君：我看到许多公司展厅屏幕上的数字人出自你们之手，但有时难以区分：假设进入展厅看到屏幕上立体数字人，具备动作、声音、表情，与Sam Altman视频中的数字人相比，除时长差异外，核心技术区别何在？

柴金祥：首要区别在于，屏幕上数字人作为人机交流载体，需实时互动，我们通常要求端对端延时小于2秒或1.5秒，不能如生成视频般等待数分钟。

其次，文生视频处理手指等细节常出错，但展厅数字人讲解产品时，体验需流畅，动作须无瑕疵、物理准确，表情与动作应协调一致。

最后，将3D数字人部署于终端，成本必须可控。终端屏幕可能仅万元人民币，若实时生成视频交互20分钟，即使可行，长期成本也难以承受。而从Sora2文生视频角度看，其成本难以规模化扩展。

泓君：成本具体多高？你们的成本如何？为何存在如此差距？

柴金祥：我可能无法给出精确数字，但可提供量级参考：与大模型的语音合成相比，我们的成本可能仅为其几十分之一。核心在于2D与3D的差异。3D描述人物动作表情仅需数百参数，人体肌肉约数百块，仅需控制部分肌肉即可。后续通过3D渲染将3D内容转为视频，及3D解算处理头发、衣物等物理效果。若用AI进行渲染和解算，成本主要源于生成这些参数，类似于大模型生成Token，因此成本极低。文生视频缺乏结构化信息，全为像素，推理与生产成本自然高昂。

泓君：所以你们降低成本的关键在于拥有端模型，可以这样理解吗？

柴金祥：是的，我们具备将文本转化为3D多模态表达能力的模型。从文本生成语音、表情、动作、手势参数，传输至终端屏幕，再通过AI渲染和解算转换为视频。AI渲染对终端算力要求极低，目前使用国内数百元芯片如瑞芯微RK3566，即可在端上运行。

泓君：例如数字人需实时互动问答，这是在端模型上运行，还是除端模型外，在表达内容上会接入大模型？

柴金祥：好问题。人与数字人交流需两个模型：一是类似ChatGPT的多模态到文本模型，现可输入声音、图像并输出文字。

另一是从文本到3D多模态的模型，我们专注文本到3D多模态输出，生成语音、姿态、动作、表情、手势，使数字人交互更逼真。

我们拥有垂直领域大模型，也可接入国内千问、DeepSeek、豆包等模型，构建端对端的人与数字人真人般交流体验。

泓君：因此，你们从多模态到文本可利用大模型，从文本到多模态则依赖自己的端模型。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第2张

柴金祥：我们称其为“文生3D多模态大模型”。

泓君：这已是可发布的“星云平台”产品了吗？

柴金祥：是的，我们于10月发布，目前处于测试阶段。已有数百家B端企业客户测试，部分已付费。我们计划两周后正式发布该文生3D多模态模型。因我们长期投入该领域，自我二十多年前读研起便持续探索，耗费大量精力。我们期望避免重复造轮子，将此能力开放给所有开发者，集成至其应用中。

泓君：明白了。有趣的是，随着星云平台发布，你们从3D数字人公司转型为3D数字人平台公司，这样理解对吗？

柴金祥：大致如此，是的。

泓君：此前NVIDIA发布会上，黄仁勋曾自豪表示“你看到的我不是真的我”，他坐在壁炉前实为虚拟3D数字人介绍产品，渲染极为逼真。他常用此虚拟人展示显卡性能，其成本大约多少？

柴金祥：成本相当高。他所做仍是视频输出，若打造类似黄仁勋的虚拟人，需研发团队与美术团队协作，在美国聘请顶尖美术团队，成本约10万美元左右，以达到发布会级逼真效果。

这仅是创建人物，制作视频可能按秒计费。这属于专业级内容生产，尚未达到人人可用阶段。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第3张

泓君：是的，游戏展会体验明显，大家如何创建3D数字人。传统方式让演员穿戴动作捕捉服，使用环形摄像机拍摄各部位，再建模逐步还原。这是好莱坞或游戏公司常用方法吧？

柴金祥：对，专业级造人包括3A游戏公司与好莱坞，如《阿凡达》或黄仁勋数字人。整体分为两部分。

第一部分是造人，通常称为扫描，使用多台相机，人物做各种表情，重建几何形状与表面纹理，包括肌肉，学术上称为建模与绑定。

第二部分是驱动，穿戴动捕服，用相机捕捉动作，驱动已创建的人物，通过渲染引擎输出视频。

全过程从建模绑定到动画再到视频输出，均十分昂贵。

泓君：这是大模型出现前，好莱坞与游戏公司的常规方法。现今有了模型，此方法仍是主流吗？抑或他们也在探索直接用3D生成人物？

柴金祥：此问题很好。3D内容的AI化取决于两点：高质量数据，以及AI算法能否对3D内容构建大模型。

目前，所有影视动画与游戏公司擅长内容制作，将美术与3D模型做得逼真，但大多缺乏AI能力，因为他们与互联网、科技公司路径不同，交叉较少。他们当然希望拥抱AI，但能力不足。

AI公司算法强大，但缺乏数据。3D内容必须先积累大量高质量3D数据才能构建大模型，这是目标，但目前两行业未充分融合。

泓君：大模型公司缺少好莱坞数据，好莱坞制作公司缺乏AI算法，可以这样理解吗？

柴金祥：是的，基本如此。

泓君：但我看也有公司开始尝试。你们在AI浪潮前，已积累数字人数据多年了吧？

柴金祥：是的，我们2018年成立，最初为B端公司如游戏、影视、动画或3D虚拟偶像公司提供3D内容制作，结合AI与美术提升效率与质量。此过程中AI能力持续增强，但各方均需突破的难点是高质量3D内容数据。无数据，AI算法再强也无能为力。

泓君：从2018年至2025年，你们积累了多少数据？可透露吗？

柴金祥：以动画数据为例，前期为企业服务，后期我们自行创建动画数据。目前高质量3D动画数据达1000多小时。相较于视频或文本数据，此量虽小，但考虑成本，高质量的人脸动画、手势、表情等数据，每秒成本至少约1000元人民币。国内成本高是一方面，另需团队具备极强能力保障质量，因此数据量短期内难以积累。

泓君：很有趣，数据是训练此类模型的核心要素。

柴金祥：我认为数据最为核心。无数据，其他研发无从谈起。除上述3D数据，我们也有其他视频数据。这些纯视频数据如人物行走或交流，虽无3D信息，但我们开始融合两者进行模型训练。

02 虚实之间诞生的“双生学科”

泓君：你当初为何选择进入3D数字人领域？

柴金祥：我2000年赴卡内基梅隆大学（CMU）读博，在机器人研究所专注此方向。我的博士论文涉及创建可交互3D数字人及用AI生成动画。我们团队可能是全球最早用AI制作动画的，恰逢2000年左右运动捕捉技术出现，有了动画数据即可应用AI。自那时起，我便专注于3D动画与数字人。2006年博士毕业至德州农工大学（Texas A&M）任教，仍持续此方向。当时动画研究属图形学领域，专为影视动画与游戏公司服务。我们发表多篇论文，均关于3D数字人与3D动画。至2018年创业，我继续此事，故在该领域坚持二十余年。

泓君：我知道你的博士导师是杰西卡·霍奇斯（Jessica Hodgins），她主要研究人形机器人与3D数字动画。且她的博士生导师是马克·雷伯特（Marc Raibert），即波士顿动力创始人，这家知名机器人公司历史悠长。看来3D生成最初应用于好莱坞领域。

柴金祥：我导师杰西卡·霍奇斯，她亦于卡内基梅隆大学1989年博士毕业，读博期间研究机器人。当时人形机器人仅具“单脚”，因双足平衡极难。她采用物理运动控制动力学方式，驱动机器人走跑跳。

毕业后，她意外进入图形学与动画领域，她的想法是：既然能在现实世界控制机器人运动，能否以同样方法驱动虚拟世界的3D数字人？

她是全球首位用物理运动控制方法制作数字人动画的学者。她在佐治亚理工学院（Georgia Tech）任教，基于物理仿真与控制制作动画，2000年返回CMU任教，恰逢运动捕捉技术兴起。我是她在CMU指导的首批博士生之一。我们当时最早用AI制作动画。后来人们发现，用AI处理动画效果佳，是否可反哺机器人行业？

现今许多知名机器人专家，最初实为动画领域研究者。例如PI联合创始人、伯克利教授Sergey Levine，他于斯坦福获博士学位，曾用物理运动控制动力学方法制作动画。毕业后他认为此技术既可做动画，亦能应用于机器人，后续任教便转向机器人研究。

泓君：难怪PI核心思路是解决机器人“大脑”问题，即软件层，希望通过模型指挥机器人，这与他最初非硬件研究而是用机器人做动画的经历一脉相承。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第4张

柴金祥：确实如此。再如我的好友Karen Liu，现任斯坦福教授，此前在佐治亚理工学院任教，她同时涉足动画与机器人领域。

我们这批动画研究者后来多转向机器人，因两领域高度相通——皆在驱动“人”，一在虚拟世界，一在物理世界。动画相对易入手，因机器人需硬件本体，搭建耗时。且现实世界受重力、空间、硬件等限制。动画则无此约束。故当时许多物理研究者转向动画。

动画领域分几派，一派用物理方法，Jessica属其中之一。另有CMU的Michiel van de Panne，他曾任我博士委员会成员，持续研究控制器与运动控制。当时动画研究中心亦在卡内基梅隆大学。Karen Liu的导师Zoran Popović同样毕业于CMU。当时动画学者稀少，国内基本无人涉及，欧洲亦少，主要集中于美国少数研究组。

动画的大飞跃始于2000年运动捕捉数据出现后，人们逐步用AI处理。早期如强化学习，我记得首篇动画论文约2004或2005年便应用强化学习。虚拟世界与实际世界的底层运动控制逻辑极似，均属“小脑”范畴的动作规划与运动控制。而现今新兴的VLA模型更偏向“大脑”层面。

泓君：很有趣。我们讨论好莱坞技术时，常有听众疑问科技节目为何关注电影工业。实则好莱坞一直是技术发展的重要推动力，许多AI技术最早应用于电影制作。你们是否考虑将3D数字人产品用于好莱坞造人？例如用生成式技术让静态演员动起来，这可能对传统方式形成“降维打击”。

柴金祥：此涉及几个关键点：质量、成本与应用场景。好莱坞质量要求最高，其次为3A级游戏，再次为生活交互简单场景。若瞄准好莱坞方向，高保真质量至关重要，他们可等待数百小时，投入更多资金追求高质量。但实时交互中，需即时反馈，质量未必需达好莱坞级别。

泓君：但可用于好莱坞IP衍生品。

柴金祥：是的，衍生品当然可行，但需更高质量3D数据构建AI大模型。在我们的发展路径上，有先后顺序，可能先应用于日常生活，如交互、服务、陪伴，再拓展至游戏，最终是好莱坞。因好莱坞水平难度极高，需极高质量，能生产此类高质量数据者全球寥寥无几。

03 AI渲染结算带来的成本革命

泓君：问一个稍敏感问题，你可选择不答。你们开放API接口必有基础接入成本。此模式能盈利吗？

柴金祥：肯定能。因平台正式发布前，我们已有B端客户。国内AI公司必须算清商业账，除非是字节、阿里、腾讯等大厂。故核心点是我们过去半年的最大突破。半年前我们的交互能力与API已就绪，但当时成本极高。服务一个数字人需一张显卡，成本约两三万元。许多B端客户询问后，闻价即退。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第5张

泓君：成本如何降低？

柴金祥：因我们处理3D内容，所有影视动画与游戏公司皆离不开一点——必须使用渲染引擎与解算引擎。

泓君：此我深有体会，我们制作视频时，渲染极耗时间。

柴金祥：是的。若需支持3D内容实时交互，每路皆需一张显卡负责渲染与解算。我们曾用最佳Unreal引擎，但成本高昂。我们一直思考，若不解决显卡成本问题，应用落地无从谈起，无论是展厅大屏、手机或平板皆难以承担。

我原以为此问题棘手，但技术有时奇妙，我们突发灵感。幸运的是，我们采用AI技术完成渲染与解算，不再依赖传统渲染引擎与昂贵显卡。现使用极便宜的终端芯片，一两百元即可运行。

泓君：所以你们用端到端AI模型解决渲染问题。

柴金祥：渲染仅是一部分。完整流程分两步：首步是用模型从文本生成语音及3D表情、动作参数；次步是将这些参数通过AI渲染与解算转换为实时视频。如此整体成本比语音生成更低。

泓君：若你们真能大幅降低渲染成本，此次生成式AI技术会对Unreal等游戏引擎公司造成冲击吗？对NVIDIA而言可能是左右手关系。

柴金祥：对Unreal未必是好事，但我认为对游戏公司更多是机遇。现今3A游戏需云端显卡或手机强算力，否则易发热。若未来能用AI方式解决渲染与解算，无需引擎与显卡即可游戏，则游戏将无处不在。或未来实现元宇宙时，虚拟世界参与成本或变得极低。

泓君：现用AI方式解决渲染，质量能达到传统游戏引擎水平吗？进展如何？

柴金祥：在我们特定应用场景下，质量基本一致。因训练数据使用最高质量游戏引擎渲染，AI模型基于大量数据逼近原效果。我们做过并列对比，左右分别为游戏引擎渲染与AI渲染，无人能辨差异。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第6张

泓君：此非常颠覆。综合评估你们模型能力，最强点是什么？例如当前2D视频渲染痛点可能是口型不匹配、眼神空洞等虚假感。你们将3D数字人应用于不同行业时，最大痛点是什么？如何解决？

柴金祥：此问题很好。我们收到客户反馈主要集中在三方面。首要是质量，包括语音、动作、表情、唇形是否自然逼真？是否类真人？其次是延时，交互聊天时，回应不能延迟5秒，否则用户无耐心；最后是成本，客户极为关注，若过昂贵，即使体验佳也不愿投入。

质量、延迟、成本——这是我们规模化落地需翻越的“三座大山”。另有关键点是让数字人支持多终端——大屏、小屏、手机APP，支持并发，涉及不同操作系统与芯片算力。

我们通过大模型提升能力解决质量与延时问题。质量方面训练数据至关重要——若3D人质量差，则无法做好。另大模型本身能力：能否从文本生成语音、表情动作与匹配唇形？能否从文本提取情绪（如笑或打招呼）自动生成关键意图？TTS语音生成是否含情绪？此皆关乎大模型如何产生高质量输出。

04 加速具身智能突破泛化

泓君：我们刚讨论许多AI技术应用于虚拟世界。反过来，你们现训练模型能操控机器人吗？你们尝试过吗？

柴金祥：我们尝试过。3D数字人与3D动画的优势在于能驱动机器人。例如3D数字人可与你交流，听懂问题，生成相应语音、动作、表情与姿态。对机器人而言，我们可用同样技术驱动它，实现实时语音、动作与手势。只是当前机器人无脸部肌肉，故无法表现表情。

现今机器人更似蓝领工人。若未来开发陪伴型机器人或执行白领工作如销售、教学，或需表情。首先我们需知机器人交流时手势如何动？表情如何变？姿态如何调？下一步通过模仿学习，如NVIDIA方法，经仿真实现直接驱动与交流。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第7张

3D数字人驱动机器人图片来源：魔珐科技

泓君：太有趣了。实际应用中，你们将模型数据接入机器人，感觉对哪部分提升最大？机器人无表情，但手势可动，你们能同时驱动手和脚吗？或仅能驱动上半身？

柴金祥：我们能同时驱动手和脚。告诉你趣事，在国内合作中，我们生成的动作数据包含脸部、手部与腿部完整动作。

其实当前许多机器人公司平衡性尚不完善，即使我们通过API提供动作数据，他们仍需结合强化学习与仿真实现。若此方面做得好，或也能驱动。上身动作多样，有一定泛化性。

此事我认为并非极难，如我们爬楼梯般，动作能通过我们能力生成，后在仿真环境中加入强化学习，复制这些动作毫无问题。

泓君：所以机器人平衡问题在于，我们收集的3D数据仅为动作姿态，无力反馈。一旦加入力因素，便会出现平衡问题、摔跤问题。

柴金祥：我觉得你很专业，此有两个核心点：驱动机器人需运动学（Kinematics）与动力学（Dynamics）。首步是运动学，如抓杯子，需知手部姿态如何，如何移动抓取。次步是动力学，解决需用多少力、按何路径抓取的问题。我们先做运动学，即运动规划，两者可结合。

泓君：我理解机器人公司寻求合作时，两者皆需。若从零开始做机器人公司，最缺数据，而你们已有数据训练好的模型。

柴金祥：是的。因我们聚焦交互，下一步今年将发布3D动作大模型。例如你告诉它“向前走五步，趴下再爬起跑”，它便能自动生成3D动作数据。此数据可用于训练机器人，拥有此类动作大模型，甚至无需动作捕捉，因捕捉也为获取类似数据。

泓君：波士顿动力机器人爬楼梯、旋转、搬箱子已成熟。但此为大模型出现前，他们研发多年，用各种方法。你现用AI模型驱动爬楼梯动作，两者技术路径完全不同还是相似？

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第8张

柴金祥：你提到有趣点，波士顿动力以往能爬楼梯，但泛化能力不强。例如给予不同高度楼梯，它未必皆能爬好。他们演示时总用同一楼梯。

此即泛化性的重要性。当今做人形机器人皆需面对此问题：生成数据后，能否处理数据外情况？例如爬楼梯，每楼梯高度、层数、摩擦系数皆不同，此皆需泛化的参数。

那今日你是否能应对任何楼梯皆爬稳？另能否控制快慢爬行？此仍是难题，根源在数据。我们核心是在虚拟世界中，通过3D动画大模型生产动画数据，让它爬楼梯，体验所有情况。机器人动作的泛化性与数字人动作的泛化性，实为一致。

泓君：你觉得用AI做机器人经历哪些变迁？如你所言，最早或无人想用AI做机器人，后逐步加入强化学习。

柴金祥：最早时，AI机器人方向极难，尤其是人形机器人，我们称Biped，最难问题为双足平衡。另一难题是抓取。那时人形机器人曾于日本火热，如本田ASIMO。工程师需调整走路参数，你不知背后多少工程师在调参。这些参数还不稳定，地面稍改便可能跌倒。那时AI与学习方法应用少，主要做控制器。

泓君：故早期机器人发展主攻控制，为使机器人不跌倒。

柴金祥：若能行走不跌倒，已非常了不起。后人们觉得仅此不够，能否有一定泛化能力？在不同平面、表面，以不同速度行走。若不用AI方法，此几乎不可能实现。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第9张

ASIMO告别演出图片来源：Honda

泓君：你觉得现机器人比20年前进化多少？

柴金祥：进化仍很大。以往让双足机器人走跑跳，感觉极难，但现看国内许多人形机器人公司，运动会上用遥控器控制，大部分走跑问题已解决。此在20年前基本不可能，平衡太难。

泓君：但此通过远程操控实现。

柴金祥：即使远程操控，仍需解决动力学控制问题。我认为若有视觉语言动作大模型，便无需遥控器。但用小脑控制此事，让它走不跌倒，仍很难。现进步在于数据、强化学习、仿真环境，如NVIDIA。技术进步后，能力开放，大家皆能在仿真环境中进行，你便发现并非极难。

泓君：机器人走路不摔倒，是现机器人公司普遍水平，或仅头部公司能做到？

柴金祥：对稍好团队应无问题。但关键点，即你的泛化能力多强？在日常训练特定场景中不摔倒，若在新场景无法应对，仍会摔倒。

泓君：那你觉得全球多少公司能在部分场景实现机器人不摔倒？

柴金祥：若完全不摔倒，在新应用场景实难，我不知现有无公司能做到强泛化能力与鲁棒性。若有，我定要学习。以爬楼梯为例，若设置未见过的楼梯情况，我不信现有任何人形机器人公司能做到。

另问题是抓取，早期人形手抓取研究少，机器人业界多用吸盘吸取。但现许多人研究灵巧手，让机器人用筷子夹物，此极难，需大脑加小脑配合。大脑先识别物体与抓取方式，小脑控制筷子夹取。我认为现见皆演示，在特定应用场景下或有些泛化性，但再扩展便难。

泓君：我们10月5日活动你亦参加，现场有机器人开可乐。彩排时我放可乐瓶，他们需将拉环对准手指方向，否则机器人手的灵活度难转动可乐开启。

柴金祥：此仍在特定布置环境中，更不用说进入家庭后各种复杂情况。大家现见VLA模型或解决此问题，但能否100%解决，其实无人知。若能，需多少数据才能达到足够泛化能力与鲁棒性？大家相信扩展定律（Scaling Laws），信大模型总有一天能解决，但其中挑战极大。

泓君：从你角度看，现全球最佳机器人公司是哪家？为何？

柴金祥：做机器人有不同流派：有做本体、硬件、小脑、大脑。我觉得很难说谁最佳，因“好”有不同定义。是在研究上有突破，或已落地商用？或许某条路看似有希望，但最终发现是死路，暂时领先未必最终领先。国内亦有不同流派，如宇树做机器人本体加小脑，不做大脑。

泓君：大脑指什么？

柴金祥：大脑是处理VLA、叠衣服等任务。小脑是处理爬楼梯、跳舞、跑步等。我觉得目前未见真正曙光，可能我较悲观。如其他领域，VR/AR、自动驾驶皆有起落，AI领域亦会如此。此是机器人首波浪潮，长期前景光明，但短期挑战多。

泓君：你觉得机器人模型达GPT-3时刻需多久？

柴金祥：我无那么强认知。我觉得今日数据要泛化能力，仍需很长时间。我见情况尚无法清晰判断是2年还是3年，但我认为10年内有希望解决。

泓君：所以你们公司未直接切入机器人赛道，而是选择3D与机器人交叉领域。

柴金祥：若让3D数字人在数字世界、VR空间或屏幕上与人交流，能抓取、走路、爬楼梯，在数字世界中已有实际应用与商业落地。

反过来，做此对机器人亦很有价值。因在小脑控制方面，你需先知如何动，再用强化学习决定用多少力。从研究角度，机器人是好方向，有太多可探索，但从商业化角度，我自己觉得挑战很多。若真要商业化落地，人形机器人在白领领域可能比蓝领更快。

3D数字人的技术革命：虚拟交互与机器人智能的融合之路 3D数字人 AI渲染具身智能虚拟内容创作第10张

泓君：你提到数字世界亦涉及力反馈，如好莱坞动画中，将苹果或南瓜甩出变成酱，如何炸开？

柴金祥：那便是物理。例如，你是数字人或3D角色，从二楼跳至一楼，跳下时与地面反馈和滚动须符合物理。我们的大模型生成动画后，本身便可用物理方式在虚拟世界中仿真。同样方式，亦可用强化学习生成控制器，我能在实际世界如此做，因此逻辑相通。

泓君：但我有问题。若我们收集动画世界数据学习，知人从楼梯摔下如何弹滚，仅见现象并用数据训练大模型，能反馈模拟，但我们仍不知力是多少。

即我们说Scaling与所有大模型，皆是黑盒模型。但我们将场景拉回现实，要让机器人砸到或拿到东西，此力大小，我不知需反复调控计算得出，故需力数据。其实人在现实生活举杯子亦无需计算力，靠经验习惯与感知即可。

我总体意是，过去机器人研究包括力学反馈，用白盒方法，但现模型用黑盒与更经验主义方法做。

柴金祥：此即为何泛化至现实世界挑战大，因泛化涉及因素多，整个过程中你需学力控制函数。

泓君：以往需自己计算吗？

柴金祥：对，现用强化学习，只要有足够数据与奖励，它便能慢慢做到。但问题是，我说的抓杯子仅小例，全球有多少种情况？故我希望将来有基座大模型，有足够多数据后，在特定场景下我能调优模型，逐步完善。

泓君：我听下来觉得，机器人领域此波最大进展是研究方式从白盒模型转为黑盒模型。从必须知每个细节受力点，靠计算与细节调配的研究，转为端到端模型，我们不知内部如何运作，但它可工作。

柴金祥：是的，此路确实打开新局面。以往那套更多是显式的，那种方法肯定不能规模化，故我们觉得做机器人极难，怎么做也无希望之感。

但今日我作为外行，我觉得虽难，但长期看有希望。此方法在大语言模型与其他领域已展示能力。若在机器人方向，你有足够多数据，有可能解决此问题，但中间会否遇意想不到问题与低谷，我不知。

泓君：看起来现是刚找到新路的兴奋时刻，但结果能否收敛？能否持续见效？此中间必有起落。

柴金祥：是的。

性价比vps 高防服务器云服务器

本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260118131.html

3D数字人的技术革命：虚拟交互与机器人智能的融合之路

01 数字人：下一代内容生产者

02 虚实之间诞生的“双生学科”

03 AI渲染结算带来的成本革命

04 加速具身智能突破泛化

Linux生态下HTTP协议解析与HTTPS证书进阶（抓包、拆解与问题排查实战指南）

工信部发布2025年第三季度电信服务质量通告

3D数字人的技术革命：虚拟交互与机器人智能的融合之路

01 数字人：下一代内容生产者

02 虚实之间诞生的“双生学科”

03 AI渲染结算带来的成本革命

04 加速具身智能突破泛化

Linux生态下HTTP协议解析与HTTPS证书进阶（抓包、拆解与问题排查实战指南）

工信部发布2025年第三季度电信服务质量通告

相关文章