在人工智能飞速发展的当下,3D数字人正深刻变革着内容创作与互动模式。你可能已经注意到,数字人主播与虚拟偶像的表现越来越自然流畅。这背后是一场数字人技术的重大革新:如今的3D数字人已告别表情僵硬、仅能按预设脚本运行的“木偶”阶段;它们能够依据指令实时生成丰富语音、精准表情与协调肢体动作,同时成本变得可控可接受。
进化的数字人不仅活跃于当下的直播间与客服中心,未来更将在3A级游戏和影视工业领域大展拳脚。然而,鲜为人知的是,3D数字人起源于机器人领域。在计算机图形学与机器人学之间,存在一道连接虚拟与现实的“旋转门”,数十年来不断有学者穿梭其中寻求突破之道。
过去,研究者采用驱动机器人的方式来驱动虚拟数字人;如今,数字人积累的经验又反哺机器人,助其理解物理世界的错综复杂。
本期《硅谷101》,主播泓君邀请了魔珐科技创始人兼CEO柴金祥教授。柴教授自2000年左右便在卡内基梅隆大学机器人研究所投身3D数字人研究,深耕该领域二十余年。泓君与柴教授深入探讨了3D数字人的前世今生、突破性进展、当前挑战,以及数字人数据与模型如何加速具身智能的进化。
以下是本次对话内容的精选:
泓君:近日,硅谷各界关注Sora2,许多人用它生成演示视频,例如我们《硅谷101》科技大会上,就创建了一段Sam Altman宣传大会的Sora2视频。屏幕中的形象颇具数字人特征,这对你们的业务会产生影响吗?
柴金祥:我认为Sora2相比Sora1进步显著,Sora1以风景为主,Sora2则以人为核心,让人物在视频中执行多样动作。我试用后感到,首先视频生成仍受10秒时长限制,未突破时间约束;其次物理一致性是关键问题,尽管刷屏效果不错,但实际操作中仍存不少瑕疵。
泓君:问题确实多。例如皮卡丘与唐老鸭总统竞选辩论视频,我尝试改为在《硅谷101》关于AGI的辩论,主题是“Alignment2025”,但仔细看背景文字已出现乱码。
柴金祥:是的。创作者不仅需要生成视频,还需修正错误、调整细节,这能力它尚未具备。更重要的是,它无法精细控制人物的动作和表情。但Sora2首次展示了大模型驱动人物多样动作的潜力。
我们专注3D数字人,若最终目标是实现人物交流、舞蹈、娱乐,那么大模型形态如何?训练数据又是什么?Sora2称使用所有视频数据训练。近期Genie3推出3D生成,赋予交互感,但它聚焦场景而非人物。
我们认为,最终可能需要结合2D与3D训练技术,旨在生成无时长限制、无瑕疵、物理准确、可控制、实时且低成本的数字人。因此,除了3D训练数据,我们也开始融合大量视频数据训练大模型,以提升数字人表现力。若模型优化得当,视频数据具备生成能力。
泓君:简言之,Sora2是文生视频,你们是文生3D。这3D数字人可于VR环境中展示,例如佩戴VR头盔时可360度观察人物。
柴金祥:是的,即2D与3D之别。Sora2是文生2D视频。3D应用于VR/AR中,能模拟现实体验。3D另一优势在于可控性,如同真人般按指令行动。而2D在像素层面实现精准动作表情控制则较困难。
泓君:我看到许多公司展厅屏幕上的数字人出自你们之手,但有时难以区分:假设进入展厅看到屏幕上立体数字人,具备动作、声音、表情,与Sam Altman视频中的数字人相比,除时长差异外,核心技术区别何在?
柴金祥:首要区别在于,屏幕上数字人作为人机交流载体,需实时互动,我们通常要求端对端延时小于2秒或1.5秒,不能如生成视频般等待数分钟。
其次,文生视频处理手指等细节常出错,但展厅数字人讲解产品时,体验需流畅,动作须无瑕疵、物理准确,表情与动作应协调一致。
最后,将3D数字人部署于终端,成本必须可控。终端屏幕可能仅万元人民币,若实时生成视频交互20分钟,即使可行,长期成本也难以承受。而从Sora2文生视频角度看,其成本难以规模化扩展。
泓君:成本具体多高?你们的成本如何?为何存在如此差距?
柴金祥:我可能无法给出精确数字,但可提供量级参考:与大模型的语音合成相比,我们的成本可能仅为其几十分之一。核心在于2D与3D的差异。3D描述人物动作表情仅需数百参数,人体肌肉约数百块,仅需控制部分肌肉即可。后续通过3D渲染将3D内容转为视频,及3D解算处理头发、衣物等物理效果。若用AI进行渲染和解算,成本主要源于生成这些参数,类似于大模型生成Token,因此成本极低。文生视频缺乏结构化信息,全为像素,推理与生产成本自然高昂。
泓君:所以你们降低成本的关键在于拥有端模型,可以这样理解吗?
柴金祥:是的,我们具备将文本转化为3D多模态表达能力的模型。从文本生成语音、表情、动作、手势参数,传输至终端屏幕,再通过AI渲染和解算转换为视频。AI渲染对终端算力要求极低,目前使用国内数百元芯片如瑞芯微RK3566,即可在端上运行。
泓君:例如数字人需实时互动问答,这是在端模型上运行,还是除端模型外,在表达内容上会接入大模型?
柴金祥:好问题。人与数字人交流需两个模型:一是类似ChatGPT的多模态到文本模型,现可输入声音、图像并输出文字。
另一是从文本到3D多模态的模型,我们专注文本到3D多模态输出,生成语音、姿态、动作、表情、手势,使数字人交互更逼真。
我们拥有垂直领域大模型,也可接入国内千问、DeepSeek、豆包等模型,构建端对端的人与数字人真人般交流体验。
泓君:因此,你们从多模态到文本可利用大模型,从文本到多模态则依赖自己的端模型。
柴金祥:我们称其为“文生3D多模态大模型”。
泓君:这已是可发布的“星云平台”产品了吗?
柴金祥:是的,我们于10月发布,目前处于测试阶段。已有数百家B端企业客户测试,部分已付费。我们计划两周后正式发布该文生3D多模态模型。因我们长期投入该领域,自我二十多年前读研起便持续探索,耗费大量精力。我们期望避免重复造轮子,将此能力开放给所有开发者,集成至其应用中。
泓君:明白了。有趣的是,随着星云平台发布,你们从3D数字人公司转型为3D数字人平台公司,这样理解对吗?
柴金祥:大致如此,是的。
泓君:此前NVIDIA发布会上,黄仁勋曾自豪表示“你看到的我不是真的我”,他坐在壁炉前实为虚拟3D数字人介绍产品,渲染极为逼真。他常用此虚拟人展示显卡性能,其成本大约多少?
柴金祥:成本相当高。他所做仍是视频输出,若打造类似黄仁勋的虚拟人,需研发团队与美术团队协作,在美国聘请顶尖美术团队,成本约10万美元左右,以达到发布会级逼真效果。
这仅是创建人物,制作视频可能按秒计费。这属于专业级内容生产,尚未达到人人可用阶段。
泓君:是的,游戏展会体验明显,大家如何创建3D数字人。传统方式让演员穿戴动作捕捉服,使用环形摄像机拍摄各部位,再建模逐步还原。这是好莱坞或游戏公司常用方法吧?
柴金祥:对,专业级造人包括3A游戏公司与好莱坞,如《阿凡达》或黄仁勋数字人。整体分为两部分。
第一部分是造人,通常称为扫描,使用多台相机,人物做各种表情,重建几何形状与表面纹理,包括肌肉,学术上称为建模与绑定。
第二部分是驱动,穿戴动捕服,用相机捕捉动作,驱动已创建的人物,通过渲染引擎输出视频。
全过程从建模绑定到动画再到视频输出,均十分昂贵。
泓君:这是大模型出现前,好莱坞与游戏公司的常规方法。现今有了模型,此方法仍是主流吗?抑或他们也在探索直接用3D生成人物?
柴金祥:此问题很好。3D内容的AI化取决于两点:高质量数据,以及AI算法能否对3D内容构建大模型。
目前,所有影视动画与游戏公司擅长内容制作,将美术与3D模型做得逼真,但大多缺乏AI能力,因为他们与互联网、科技公司路径不同,交叉较少。他们当然希望拥抱AI,但能力不足。
AI公司算法强大,但缺乏数据。3D内容必须先积累大量高质量3D数据才能构建大模型,这是目标,但目前两行业未充分融合。
泓君:大模型公司缺少好莱坞数据,好莱坞制作公司缺乏AI算法,可以这样理解吗?
柴金祥:是的,基本如此。
泓君:但我看也有公司开始尝试。你们在AI浪潮前,已积累数字人数据多年了吧?
柴金祥:是的,我们2018年成立,最初为B端公司如游戏、影视、动画或3D虚拟偶像公司提供3D内容制作,结合AI与美术提升效率与质量。此过程中AI能力持续增强,但各方均需突破的难点是高质量3D内容数据。无数据,AI算法再强也无能为力。
泓君:从2018年至2025年,你们积累了多少数据?可透露吗?
柴金祥:以动画数据为例,前期为企业服务,后期我们自行创建动画数据。目前高质量3D动画数据达1000多小时。相较于视频或文本数据,此量虽小,但考虑成本,高质量的人脸动画、手势、表情等数据,每秒成本至少约1000元人民币。国内成本高是一方面,另需团队具备极强能力保障质量,因此数据量短期内难以积累。
泓君:很有趣,数据是训练此类模型的核心要素。
柴金祥:我认为数据最为核心。无数据,其他研发无从谈起。除上述3D数据,我们也有其他视频数据。这些纯视频数据如人物行走或交流,虽无3D信息,但我们开始融合两者进行模型训练。
泓君:你当初为何选择进入3D数字人领域?
柴金祥:我2000年赴卡内基梅隆大学(CMU)读博,在机器人研究所专注此方向。我的博士论文涉及创建可交互3D数字人及用AI生成动画。我们团队可能是全球最早用AI制作动画的,恰逢2000年左右运动捕捉技术出现,有了动画数据即可应用AI。自那时起,我便专注于3D动画与数字人。2006年博士毕业至德州农工大学(Texas A&M)任教,仍持续此方向。当时动画研究属图形学领域,专为影视动画与游戏公司服务。我们发表多篇论文,均关于3D数字人与3D动画。至2018年创业,我继续此事,故在该领域坚持二十余年。
泓君:我知道你的博士导师是杰西卡·霍奇斯(Jessica Hodgins),她主要研究人形机器人与3D数字动画。且她的博士生导师是马克·雷伯特(Marc Raibert),即波士顿动力创始人,这家知名机器人公司历史悠长。看来3D生成最初应用于好莱坞领域。
柴金祥:我导师杰西卡·霍奇斯,她亦于卡内基梅隆大学1989年博士毕业,读博期间研究机器人。当时人形机器人仅具“单脚”,因双足平衡极难。她采用物理运动控制动力学方式,驱动机器人走跑跳。
毕业后,她意外进入图形学与动画领域,她的想法是:既然能在现实世界控制机器人运动,能否以同样方法驱动虚拟世界的3D数字人?
她是全球首位用物理运动控制方法制作数字人动画的学者。她在佐治亚理工学院(Georgia Tech)任教,基于物理仿真与控制制作动画,2000年返回CMU任教,恰逢运动捕捉技术兴起。我是她在CMU指导的首批博士生之一。我们当时最早用AI制作动画。后来人们发现,用AI处理动画效果佳,是否可反哺机器人行业?
现今许多知名机器人专家,最初实为动画领域研究者。例如PI联合创始人、伯克利教授Sergey Levine,他于斯坦福获博士学位,曾用物理运动控制动力学方法制作动画。毕业后他认为此技术既可做动画,亦能应用于机器人,后续任教便转向机器人研究。
泓君:难怪PI核心思路是解决机器人“大脑”问题,即软件层,希望通过模型指挥机器人,这与他最初非硬件研究而是用机器人做动画的经历一脉相承。
柴金祥:确实如此。再如我的好友Karen Liu,现任斯坦福教授,此前在佐治亚理工学院任教,她同时涉足动画与机器人领域。
我们这批动画研究者后来多转向机器人,因两领域高度相通——皆在驱动“人”,一在虚拟世界,一在物理世界。动画相对易入手,因机器人需硬件本体,搭建耗时。且现实世界受重力、空间、硬件等限制。动画则无此约束。故当时许多物理研究者转向动画。
动画领域分几派,一派用物理方法,Jessica属其中之一。另有CMU的Michiel van de Panne,他曾任我博士委员会成员,持续研究控制器与运动控制。当时动画研究中心亦在卡内基梅隆大学。Karen Liu的导师Zoran Popović同样毕业于CMU。当时动画学者稀少,国内基本无人涉及,欧洲亦少,主要集中于美国少数研究组。
动画的大飞跃始于2000年运动捕捉数据出现后,人们逐步用AI处理。早期如强化学习,我记得首篇动画论文约2004或2005年便应用强化学习。虚拟世界与实际世界的底层运动控制逻辑极似,均属“小脑”范畴的动作规划与运动控制。而现今新兴的VLA模型更偏向“大脑”层面。
泓君:很有趣。我们讨论好莱坞技术时,常有听众疑问科技节目为何关注电影工业。实则好莱坞一直是技术发展的重要推动力,许多AI技术最早应用于电影制作。你们是否考虑将3D数字人产品用于好莱坞造人?例如用生成式技术让静态演员动起来,这可能对传统方式形成“降维打击”。
柴金祥:此涉及几个关键点:质量、成本与应用场景。好莱坞质量要求最高,其次为3A级游戏,再次为生活交互简单场景。若瞄准好莱坞方向,高保真质量至关重要,他们可等待数百小时,投入更多资金追求高质量。但实时交互中,需即时反馈,质量未必需达好莱坞级别。
泓君:但可用于好莱坞IP衍生品。
柴金祥:是的,衍生品当然可行,但需更高质量3D数据构建AI大模型。在我们的发展路径上,有先后顺序,可能先应用于日常生活,如交互、服务、陪伴,再拓展至游戏,最终是好莱坞。因好莱坞水平难度极高,需极高质量,能生产此类高质量数据者全球寥寥无几。
泓君:问一个稍敏感问题,你可选择不答。你们开放API接口必有基础接入成本。此模式能盈利吗?
柴金祥:肯定能。因平台正式发布前,我们已有B端客户。国内AI公司必须算清商业账,除非是字节、阿里、腾讯等大厂。故核心点是我们过去半年的最大突破。半年前我们的交互能力与API已就绪,但当时成本极高。服务一个数字人需一张显卡,成本约两三万元。许多B端客户询问后,闻价即退。
泓君:成本如何降低?
柴金祥:因我们处理3D内容,所有影视动画与游戏公司皆离不开一点——必须使用渲染引擎与解算引擎。
泓君:此我深有体会,我们制作视频时,渲染极耗时间。
柴金祥:是的。若需支持3D内容实时交互,每路皆需一张显卡负责渲染与解算。我们曾用最佳Unreal引擎,但成本高昂。我们一直思考,若不解决显卡成本问题,应用落地无从谈起,无论是展厅大屏、手机或平板皆难以承担。
我原以为此问题棘手,但技术有时奇妙,我们突发灵感。幸运的是,我们采用AI技术完成渲染与解算,不再依赖传统渲染引擎与昂贵显卡。现使用极便宜的终端芯片,一两百元即可运行。
泓君:所以你们用端到端AI模型解决渲染问题。
柴金祥:渲染仅是一部分。完整流程分两步:首步是用模型从文本生成语音及3D表情、动作参数;次步是将这些参数通过AI渲染与解算转换为实时视频。如此整体成本比语音生成更低。
泓君:若你们真能大幅降低渲染成本,此次生成式AI技术会对Unreal等游戏引擎公司造成冲击吗?对NVIDIA而言可能是左右手关系。
柴金祥:对Unreal未必是好事,但我认为对游戏公司更多是机遇。现今3A游戏需云端显卡或手机强算力,否则易发热。若未来能用AI方式解决渲染与解算,无需引擎与显卡即可游戏,则游戏将无处不在。或未来实现元宇宙时,虚拟世界参与成本或变得极低。
泓君:现用AI方式解决渲染,质量能达到传统游戏引擎水平吗?进展如何?
柴金祥:在我们特定应用场景下,质量基本一致。因训练数据使用最高质量游戏引擎渲染,AI模型基于大量数据逼近原效果。我们做过并列对比,左右分别为游戏引擎渲染与AI渲染,无人能辨差异。
泓君:此非常颠覆。综合评估你们模型能力,最强点是什么?例如当前2D视频渲染痛点可能是口型不匹配、眼神空洞等虚假感。你们将3D数字人应用于不同行业时,最大痛点是什么?如何解决?
柴金祥:此问题很好。我们收到客户反馈主要集中在三方面。首要是质量,包括语音、动作、表情、唇形是否自然逼真?是否类真人?其次是延时,交互聊天时,回应不能延迟5秒,否则用户无耐心;最后是成本,客户极为关注,若过昂贵,即使体验佳也不愿投入。
质量、延迟、成本——这是我们规模化落地需翻越的“三座大山”。另有关键点是让数字人支持多终端——大屏、小屏、手机APP,支持并发,涉及不同操作系统与芯片算力。
我们通过大模型提升能力解决质量与延时问题。质量方面训练数据至关重要——若3D人质量差,则无法做好。另大模型本身能力:能否从文本生成语音、表情动作与匹配唇形?能否从文本提取情绪(如笑或打招呼)自动生成关键意图?TTS语音生成是否含情绪?此皆关乎大模型如何产生高质量输出。
泓君:我们刚讨论许多AI技术应用于虚拟世界。反过来,你们现训练模型能操控机器人吗?你们尝试过吗?
柴金祥:我们尝试过。3D数字人与3D动画的优势在于能驱动机器人。例如3D数字人可与你交流,听懂问题,生成相应语音、动作、表情与姿态。对机器人而言,我们可用同样技术驱动它,实现实时语音、动作与手势。只是当前机器人无脸部肌肉,故无法表现表情。
现今机器人更似蓝领工人。若未来开发陪伴型机器人或执行白领工作如销售、教学,或需表情。首先我们需知机器人交流时手势如何动?表情如何变?姿态如何调?下一步通过模仿学习,如NVIDIA方法,经仿真实现直接驱动与交流。
3D数字人驱动机器人 图片来源:魔珐科技
泓君:太有趣了。实际应用中,你们将模型数据接入机器人,感觉对哪部分提升最大?机器人无表情,但手势可动,你们能同时驱动手和脚吗?或仅能驱动上半身?
柴金祥:我们能同时驱动手和脚。告诉你趣事,在国内合作中,我们生成的动作数据包含脸部、手部与腿部完整动作。
其实当前许多机器人公司平衡性尚不完善,即使我们通过API提供动作数据,他们仍需结合强化学习与仿真实现。若此方面做得好,或也能驱动。上身动作多样,有一定泛化性。
此事我认为并非极难,如我们爬楼梯般,动作能通过我们能力生成,后在仿真环境中加入强化学习,复制这些动作毫无问题。
泓君:所以机器人平衡问题在于,我们收集的3D数据仅为动作姿态,无力反馈。一旦加入力因素,便会出现平衡问题、摔跤问题。
柴金祥:我觉得你很专业,此有两个核心点:驱动机器人需运动学(Kinematics)与动力学(Dynamics)。首步是运动学,如抓杯子,需知手部姿态如何,如何移动抓取。次步是动力学,解决需用多少力、按何路径抓取的问题。我们先做运动学,即运动规划,两者可结合。
泓君:我理解机器人公司寻求合作时,两者皆需。若从零开始做机器人公司,最缺数据,而你们已有数据训练好的模型。
柴金祥:是的。因我们聚焦交互,下一步今年将发布3D动作大模型。例如你告诉它“向前走五步,趴下再爬起跑”,它便能自动生成3D动作数据。此数据可用于训练机器人,拥有此类动作大模型,甚至无需动作捕捉,因捕捉也为获取类似数据。
泓君:波士顿动力机器人爬楼梯、旋转、搬箱子已成熟。但此为大模型出现前,他们研发多年,用各种方法。你现用AI模型驱动爬楼梯动作,两者技术路径完全不同还是相似?
柴金祥:你提到有趣点,波士顿动力以往能爬楼梯,但泛化能力不强。例如给予不同高度楼梯,它未必皆能爬好。他们演示时总用同一楼梯。
此即泛化性的重要性。当今做人形机器人皆需面对此问题:生成数据后,能否处理数据外情况?例如爬楼梯,每楼梯高度、层数、摩擦系数皆不同,此皆需泛化的参数。
那今日你是否能应对任何楼梯皆爬稳?另能否控制快慢爬行?此仍是难题,根源在数据。我们核心是在虚拟世界中,通过3D动画大模型生产动画数据,让它爬楼梯,体验所有情况。机器人动作的泛化性与数字人动作的泛化性,实为一致。
泓君:你觉得用AI做机器人经历哪些变迁?如你所言,最早或无人想用AI做机器人,后逐步加入强化学习。
柴金祥:最早时,AI机器人方向极难,尤其是人形机器人,我们称Biped,最难问题为双足平衡。另一难题是抓取。那时人形机器人曾于日本火热,如本田ASIMO。工程师需调整走路参数,你不知背后多少工程师在调参。这些参数还不稳定,地面稍改便可能跌倒。那时AI与学习方法应用少,主要做控制器。
泓君:故早期机器人发展主攻控制,为使机器人不跌倒。
柴金祥:若能行走不跌倒,已非常了不起。后人们觉得仅此不够,能否有一定泛化能力?在不同平面、表面,以不同速度行走。若不用AI方法,此几乎不可能实现。
ASIMO告别演出 图片来源:Honda
泓君:你觉得现机器人比20年前进化多少?
柴金祥:进化仍很大。以往让双足机器人走跑跳,感觉极难,但现看国内许多人形机器人公司,运动会上用遥控器控制,大部分走跑问题已解决。此在20年前基本不可能,平衡太难。
泓君:但此通过远程操控实现。
柴金祥:即使远程操控,仍需解决动力学控制问题。我认为若有视觉语言动作大模型,便无需遥控器。但用小脑控制此事,让它走不跌倒,仍很难。现进步在于数据、强化学习、仿真环境,如NVIDIA。技术进步后,能力开放,大家皆能在仿真环境中进行,你便发现并非极难。
泓君:机器人走路不摔倒,是现机器人公司普遍水平,或仅头部公司能做到?
柴金祥:对稍好团队应无问题。但关键点,即你的泛化能力多强?在日常训练特定场景中不摔倒,若在新场景无法应对,仍会摔倒。
泓君:那你觉得全球多少公司能在部分场景实现机器人不摔倒?
柴金祥:若完全不摔倒,在新应用场景实难,我不知现有无公司能做到强泛化能力与鲁棒性。若有,我定要学习。以爬楼梯为例,若设置未见过的楼梯情况,我不信现有任何人形机器人公司能做到。
另问题是抓取,早期人形手抓取研究少,机器人业界多用吸盘吸取。但现许多人研究灵巧手,让机器人用筷子夹物,此极难,需大脑加小脑配合。大脑先识别物体与抓取方式,小脑控制筷子夹取。我认为现见皆演示,在特定应用场景下或有些泛化性,但再扩展便难。
泓君:我们10月5日活动你亦参加,现场有机器人开可乐。彩排时我放可乐瓶,他们需将拉环对准手指方向,否则机器人手的灵活度难转动可乐开启。
柴金祥:此仍在特定布置环境中,更不用说进入家庭后各种复杂情况。大家现见VLA模型或解决此问题,但能否100%解决,其实无人知。若能,需多少数据才能达到足够泛化能力与鲁棒性?大家相信扩展定律(Scaling Laws),信大模型总有一天能解决,但其中挑战极大。
泓君:从你角度看,现全球最佳机器人公司是哪家?为何?
柴金祥:做机器人有不同流派:有做本体、硬件、小脑、大脑。我觉得很难说谁最佳,因“好”有不同定义。是在研究上有突破,或已落地商用?或许某条路看似有希望,但最终发现是死路,暂时领先未必最终领先。国内亦有不同流派,如宇树做机器人本体加小脑,不做大脑。
泓君:大脑指什么?
柴金祥:大脑是处理VLA、叠衣服等任务。小脑是处理爬楼梯、跳舞、跑步等。我觉得目前未见真正曙光,可能我较悲观。如其他领域,VR/AR、自动驾驶皆有起落,AI领域亦会如此。此是机器人首波浪潮,长期前景光明,但短期挑战多。
泓君:你觉得机器人模型达GPT-3时刻需多久?
柴金祥:我无那么强认知。我觉得今日数据要泛化能力,仍需很长时间。我见情况尚无法清晰判断是2年还是3年,但我认为10年内有希望解决。
泓君:所以你们公司未直接切入机器人赛道,而是选择3D与机器人交叉领域。
柴金祥:若让3D数字人在数字世界、VR空间或屏幕上与人交流,能抓取、走路、爬楼梯,在数字世界中已有实际应用与商业落地。
反过来,做此对机器人亦很有价值。因在小脑控制方面,你需先知如何动,再用强化学习决定用多少力。从研究角度,机器人是好方向,有太多可探索,但从商业化角度,我自己觉得挑战很多。若真要商业化落地,人形机器人在白领领域可能比蓝领更快。
泓君:你提到数字世界亦涉及力反馈,如好莱坞动画中,将苹果或南瓜甩出变成酱,如何炸开?
柴金祥:那便是物理。例如,你是数字人或3D角色,从二楼跳至一楼,跳下时与地面反馈和滚动须符合物理。我们的大模型生成动画后,本身便可用物理方式在虚拟世界中仿真。同样方式,亦可用强化学习生成控制器,我能在实际世界如此做,因此逻辑相通。
泓君:但我有问题。若我们收集动画世界数据学习,知人从楼梯摔下如何弹滚,仅见现象并用数据训练大模型,能反馈模拟,但我们仍不知力是多少。
即我们说Scaling与所有大模型,皆是黑盒模型。但我们将场景拉回现实,要让机器人砸到或拿到东西,此力大小,我不知需反复调控计算得出,故需力数据。其实人在现实生活举杯子亦无需计算力,靠经验习惯与感知即可。
我总体意是,过去机器人研究包括力学反馈,用白盒方法,但现模型用黑盒与更经验主义方法做。
柴金祥:此即为何泛化至现实世界挑战大,因泛化涉及因素多,整个过程中你需学力控制函数。
泓君:以往需自己计算吗?
柴金祥:对,现用强化学习,只要有足够数据与奖励,它便能慢慢做到。但问题是,我说的抓杯子仅小例,全球有多少种情况?故我希望将来有基座大模型,有足够多数据后,在特定场景下我能调优模型,逐步完善。
泓君:我听下来觉得,机器人领域此波最大进展是研究方式从白盒模型转为黑盒模型。从必须知每个细节受力点,靠计算与细节调配的研究,转为端到端模型,我们不知内部如何运作,但它可工作。
柴金祥:是的,此路确实打开新局面。以往那套更多是显式的,那种方法肯定不能规模化,故我们觉得做机器人极难,怎么做也无希望之感。
但今日我作为外行,我觉得虽难,但长期看有希望。此方法在大语言模型与其他领域已展示能力。若在机器人方向,你有足够多数据,有可能解决此问题,但中间会否遇意想不到问题与低谷,我不知。
泓君:看起来现是刚找到新路的兴奋时刻,但结果能否收敛?能否持续见效?此中间必有起落。
柴金祥:是的。
本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118131.html