当前位置:首页 > 科技资讯 > 正文

具身智能圆桌激辩:数据瓶颈与百亿豪赌

作者|富充

责任编辑|苏建勋

“假如给你100亿元用于推动具身智能的发展,你会如何规划这笔资金的使用?”

在2025年11月20日举办的智源具身Open Day圆桌论坛上,主持人抛出了这样一个开放式议题。

参与讨论的嘉宾来自八家国内具身智能领域的顶尖企业和研究机构:

智源研究院院长王仲远

智元机器人合伙人、首席科学家罗剑岚

北京大学助理教授、银河通用创始人王鹤

清华大学交叉信息学院助理教授、星海图联合创始人赵行

加速进化创始人兼CEO程昊

自变量创始人兼CEO王潜

招商局集团AI首席科学家张家兴

中国科学院大学教授赵冬斌

“我觉得100亿元可能不太够。”加速进化创始人兼CEO程昊笑着回应道,观众席也传出会意的笑声,“如果只有100亿,我会寻求更多伙伴共同推动行业进步。比如投资到智源研究院。”

智元机器人合伙人罗剑岚倾向于将这笔资金用于攻克当前的数据瓶颈:“我将致力于构建全球最大的自我进化、自我闭环的数据飞轮。100亿元可以说很多,也可以说不多,但目前还没有任何个人或机构率先用100亿去做这件事。”

除了“花钱策略”,八位嘉宾还深入探讨了世界模型等业内热门话题,并对当下主流的VLA范式提出了反思与改进思路。

为增强观点碰撞,本次圆桌论坛特别设置了“举牌表态”环节:嘉宾通过举起1、2、3号牌分别表示同意、中立或不同意。

从举牌结果来看,即便在国内顶尖从业者之间,非共识依然显著。分歧最为集中的是“数据稀缺”问题的解决方案。

星海图联合创始人赵行和招商局集团AI首席科学家张家兴,主张真实物理世界数据的重要性;银河通用创始人王鹤则强调,在真实数据难以采集的场景下,合成数据将发挥关键作用。

自变量创始人兼CEO王潜认为可以采用融合数据策略,但需根据具体任务选择合适的数据来源。

如何选取和组合数据才能实现从量变到质变的飞跃?不同的回答折射出每位创业者心目中的“第一性原理”与战略重心。

以下是《智能涌现》从论坛中选取的精彩内容,对话经作者整理:

具身智能圆桌激辩:数据瓶颈与百亿豪赌 具身智能 数据瓶颈 VLA模型 世界模型 第1张

△2025智源具身Open Day“具身模型会客厅”圆桌论坛,图源:智源研究院

主持人:大家认为,世界模型会是具身智能的关键技术吗?

王鹤(同意):我只能说这取决于对世界模型的定义。经过Sora等一系列视频生成模型的加工后,世界模型原本在强化学习里的定义已逐渐模糊。

当前一个主流思路是,让机器人通过人类行为的视频来学习。但这里存在一个根本问题:机器人的身体结构与人类差异巨大——无论是轮式底盘还是双臂,其灵巧度和活动空间都与人不同。

因此,即便模型能生成逼真的人类动作,这类数据对机器人的实际帮助也相当有限。

然而,放眼未来,预测能力对具身智能而言不可或缺。机器人必须能像人一样,根据未来的目标,推理出当前应执行的动作,进行动作规划。

所以结论是:世界模型所代表的预测能力是核心,但它的训练数据必须来自机器人自身。只有通过大量机器人数据,我们才能训练出真正适用于机器人的、有效的世界模型。

王仲远(同意):世界模型对具身智能肯定有作用,但它并不一定是具身智能必须的基座。

我们所理解的世界模型,不仅仅是一个视频生成模型。视频生成固然产生了下一帧画面,但人类实际上需要的是世界模型能基于前续的时空状态,预测下一个时空状态。

就比如说刚才我要回答时,需要基于主持人的提问,可能会根据王鹤老师的回答来组织我的答案,并做出拿起话筒的决策。

主持人:在通用大模型领域,Transformer这样的统一架构催生了ChatGPT的爆发,但具身智能的模型并未进入“一个大模型打天下”的局面,目前有分层的具身大模型、端到端的VLA、世界模型等等。

大家认为,具身智能模型最终会收敛到由某个统一架构主导吗?

张家兴(中立):我认为具身智能真要走向成熟,模型层面并不能沿着过去三年LLM到VLM的路径走下去。具身智能需要一个完全属于自己的架构。

就像人的智能,是先有动作,然后才有视觉,最后才发展出语言。VLA结构是在视觉与动作之间夹了一个语言,这其实并不符合人类操作的本质。

比如开车时,我们可以一边聊天、听音乐,一边观察路况。(语言并未直接参与驾驶操作)这说明视觉与动作是打通的,并不需要语言时刻介入。

现在一些头部团队,尤其是硅谷的某些团队,正在探索新的多模态大模型架构。在此架构下,原本Language First的状态,有可能演变为Vision First或Vision Action First,这是值得我们期待的突破。

赵行(同意):我非常同意我们需要一个平行于大语言模型的基础模型。

这个基础模型更大概率是一个Large Action Model,而这个Large Action Model又依赖于视觉,因为视觉是世界上最通用的感知传感器信息。在此基础上,我们再融入语言。

这与生物进化的规律颇为相似:先有能运动的动物,然后它们演化出视觉,最后才出现人类这种高智慧生物。

另外,我想强调一点:具身模型与大语言模型有一个关键不同,即它必须是一个闭环模型。

大语言模型更多是开环模型:你提问,它给出答案,中间可能经历思维链,答对即结束。

但具身智能截然不同,它不是经过一系列思考然后做一个动作,而是在执行一个动作后立即获得世界反馈,并迅速调整下一个动作。

罗剑岚(同意):我觉得现在具身智能最终会被一个一体的系统解决,这个系统包含VLA、世界模型、强化学习,而不是依赖单一模型。

这里解释一下,我非常同意刚才张家兴所说,现在的VLA可能不是最终范式,但我认为未来它依然包含视觉、语言和动作三个要素。也就是说VLA这个大方向是对的,但未必是现在的形态,所以我仍沿用VLA这个词。

同时,它也需要一个世界模型,能够反思、预测,并在潜在空间(Latent Space)中进行想象(Imagination)。当然,这个系统还需要强化学习。

这些要素组合起来,再配合真实世界的数据飞轮,具身智能就能不断自我进化,持续学习。

王仲远(同意):首先智源研究院坚信,从终极状态来看,必须有一个相对统一的架构模型来解决具身智能的各种问题。这也是我们布局多模态世界模型的重要原因。

当然,这所需的数据量将极其庞大,甚至可能不是三年、五年就能完全实现的。

更好的具身大模型,可能要等大量机器人在真实场景中解决具体问题、累积出“具身智能互联网”级别的数据之后,才会出现。

王鹤(同意):我觉得从架构角度,今天我们所说的Transformer作为跨模态的Attention机制,是非常通用的。比如它处理文本、视频、声音等模态都是可行的。

不过,当前具身的问题是,人类拥有眼、耳、口、鼻、舌等多种感知,虽然从Attention角度可以将这些感知Token化后放入Transformer,但在输出上似乎并不完全匹配。

所以如果我们逐步解决这些问题,架构上未来有望形成非常统一的范式。

但对于当下而言,更长期的挑战是数据。我非常认同仲远博士刚才的观点,今天的视频生成模型或对话模型,本质上都依赖海量的互联网大数据。

那么当下要研究出一个Action First的模型,问题在于地球上的人形机器人数量太少。如此少的数量,不足以支撑探索出Action First的架构和模型。

因此我的看法是,短期内我们需依靠合成数据来探索这个方向,这比单纯使用真实数据更快。先用这种方法让具身智能的能力点增长,然后机器人数量才能增长,最终孕育出真正强大的大模型。

程昊(同意):我们因为专注于运控,所以更多从机器人运控视角思考具身智能模型。

我们希望有一个具身模型,能根据需求和环境,实时输出未来100帧的动作。想象一下,这可能是一个机器人运动的动画。

这个模型一旦跑通,整个具身智能的落地将变得非常顺畅。

我们之所以关注世界模型,是因为核心在于它能预测接下来会发生什么,既包括机器人本体的主动行为,也包括环境事件的变化。

比如做饭是非常复杂的任务,但可以先采用分层方法让机器人落地简单任务:取快递、搬箱子等。

不过这确实充满挑战,实现起来较为遥远。所以我们中间可能会先用分层方法,先做Agent,先落地。

就像王鹤老师所说,只要落地,机器人数量一定会增加。因为落地创造价值,大家就有动力、资金和意愿制造更多机器人,采集大量数据。

这些数据反过来将反哺整个具身智能大模型的开发。

王潜(同意):我觉得问题中“Transformer”这个说法稍微有些误导。如今即使语言模型中,也不一定都使用Transformer架构。

当然我理解问题是在讨论我们是否会有一整套类似于当年GPT的完整基础模型。从这个角度看,我认为是有的。

我们能从语言模型身上学到两件特别重要的事。

第一,数据很重要,但不是简单的“越多越好”。语言模型时代已经证明,单纯堆数据规模未必带来最佳效果,高质量、高效率的数据才是决定性因素。

所以尽管我们也做合成数据,但目前仍以物理世界的真实数据为主,因为我们相信在具身场景中,数据质量比总量更能拉开量级差距。

第二,要做Foundation Model(基础模型)。我认为必须有一套物理世界的基础模型,它平行于或独立于虚拟世界。

原因在于,虚拟世界和物理世界的特性差异巨大。物理世界中摩擦、接触、碰撞等精细过程,本身难以用语言或传统合成数据准确描述。所以最终我们需要的是一个直接在物理世界上学习的基础模型,能够描绘所有这些细致复杂的物理过程。

它应该既能控制机器人,同时也是一个世界模型。因此,在我们的实践中,世界模型、VLA等概念并非互斥:同一个模型既可以输出动作,也可以输出视频等,我们将其整体视为“物理世界的基础模型”。

至于为什么要做通用模型,是因为通用模型学到的是跨任务的共性结构,也就是某种“常识”或“本质规律”。在具身领域,这可能是牛顿定律、物体属性;在语言领域,则是逻辑和常识。

我反而认为,最终可能不是我们继承现在的多模态模型作为具身模型的基础;而是5至10年后,来自具身的多模态模型可能成为主导。也就是说,用物理世界收集的数据做出来的多模态模型,可能会反过来吞并今天以虚拟世界数据为主的多模态模型。

这其实也符合人类认知:我们一生接触到的多模态数据远少于互联网规模,却能形成很强的世界理解。其中一个关键原因就是具身智能可以在动作中完成交互感知和主动感知,从而更好地在时间和因果维度上抓住物理世界的规律。

具身智能圆桌激辩:数据瓶颈与百亿豪赌 具身智能 数据瓶颈 VLA模型 世界模型 第2张

△现场嘉宾举牌情况展示了对于具身智能问题的非共识,图源:智源研究院

主持人:刚才几位嘉宾不约而同强调了数据的重要性,现在能否用一两句话介绍一下你们是采用了什么样的策略去面对数据瓶颈的问题?

张家兴:我们的数据理念是,第一,相信真实物理世界采集的数据,这个重要性刚才王潜已多次强调。

第二,在整个数据金字塔中,我们接下来更偏重于以人自身作为本体去采集的数据。这是成本最低、量级最容易提升的数据,主要用于预训练。

赵行:我们也是以真实数据为基础。有三个切入点。

第一个切入点是真实性、质量。所以我们从真实机器人的数据采集起步。

第二个关注点是多样性。相比于数据采集厂,我们更多深入真实场景进行数据采集。

第三个方面是关注数量,扩大采集规模,降低采集成本。

罗剑岚:我们同样坚持真实数据,并高度重视数据质量。

我觉得我们有两个点想突出:一是刚才赵行老师提到的,要在真实场景采集真实数据,而非仅局限于数据采集厂。

另外一点是,我认为未来整个数据飞轮的构建,还是要靠机器人自主产生数据。这不仅仅依赖遥操作,而是需要将大量机器人部署在真实场景中,让它们与环境交互,产生广泛且多元化的数据。

王仲远:我们仍坚持从视频数据中做基座模型的学习。

因为视频数据可以海量获取,同时又能模拟真实世界。然后通过真机采集的数据进行微调,再借助强化学习进行反馈,不断提升模型能力。

这一逻辑其实类似于现在小朋友通过刷手机认识世界:先通过视频学习世界,再通过真实交互体验提升技能。这也符合第一性原理。

王鹤:可能在座的人中,我是非常强调仿真的。

并不是说真实世界能采集的数据我要故意去仿真,而是我们发现许多底层控制是通过大量强化学习习得的,而在真实世界中进行这类强化学习较为困难。

比如我们今天看到的所有人形足式行走、跳舞,包括各种复杂身体控制,全部是通过仿真器习得的。

我们最近看到的趋势,来自与清华大学合作的灵巧手项目。至今所有做手内操作的灵巧手工作,也都是通过仿真器习得,而非遥操作。

因为大家可能发现,遥操作控制灵巧手时,你很难感知手指是否碰到物体、受力大小,操作难度极大。

所以我的看法是,模拟器并不是否定真实世界,而是这些丰富的物理交互从模拟器起步,能为我们提供良好的基础控制器(Base Controller),让我们在真实世界中顺利转动数据飞轮。这是我眼中合成数据的使命。

程昊:我们现在确实使用仿真数据较多,因为它效率更高。

但我们用仿真数据训练的目标,是为了让具身智能快速落地,落地后获得大量真实数据。

也许获取真实数据后,整体能力会进一步提升,但可能发现某些场景下真实数据成本过高,于是又开始大量使用仿真数据。这很可能是一个螺旋上升的过程。

最后,视频数据肯定是最多的,只不过目前视频数据训练效果不够理想。但这个问题从历史角度看,肯定会有解决方案。

所以终局的解法我们觉得,大概率还是融合数据,哪个阶段哪种数据好用,就先采用哪种。

王潜:我们各种数据都用,但使用时各有侧重。

就像我刚才说的,不同数据的分布差异很大。比如我们也大量使用互联网数据,基本能爬取的数据都会爬取,主要用于预训练,学习常识。

仿真我们也做,但可能不会用于处理接触(Contact)、取物(Reach)等操作,而是用于导航、规划等任务。而操作类任务仍以物理世界的真实数据为主。

赵冬斌:我认为自动驾驶也是具身智能的重要实例。从自动驾驶的经验看,它将车卖给C端用户,每个司机每天在路上开车,数据就被回收了。

什么时候我们的机器人能销售或租赁到真实场景,边工作边采集数据,数据量就会更快增长。

主持人:每位嘉宾能否用一句话解释你们在做决策时的第一性原理是什么?

张家兴:我比较认同去年图灵奖获得者的观点:让机器自己去发现,让机器自己去探索。

赵行:星海图创立之初就有一句话:“In Scaling Law We Trust”。我们相信数据的规模化能反向驱动模型进化,实现智能。

罗剑岚:我认为要做难而正确的事,风物长宜放眼量。许多事情短期看是负担,长期却能产生巨大价值。

王鹤:银河通用致力于让数据飞轮转起来,即使现在做的不是别人眼中最炫酷的东西。

程昊:我们决策时会关注它能否落地,某个方向是否对落地有帮助。

王潜:我们的判断标准是,能否在较长周期内为客户和消费者创造真实价值。

赵冬斌:从研究角度看,智能驾驶与具身智能将存在交互支持。

主持人:具身智能很吸睛,但也很花钱。一个快问快答的问题:如果给你的企业100亿元推进具身智能发展,这笔钱你会怎么花?

王潜:首先我会吸纳市场上能获得的高质量人才。其次是算力和数据源。

程昊:首先我觉得100亿不太够(笑)。如果只有100亿,我会找更多朋友共同推动具身行业。比如投资到智源研究院,吸引全球研究人才心无旁骛地做长期技术突破。

王鹤:我觉得100亿其实并不重要,重要的是你如何用事业和坚定的进展吸引人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。

我也愿意用这十亿美金支持智源研究院。

罗剑岚:我会构建全球最大的自我进化、自我闭环的数据飞轮。100亿可以说很多,也可以说不多,但目前还没有任何个人或机构率先用100亿去做这件事。

赵行:我也想构建一个最大的数据引擎,将物理世界的信息全部数字化。

张家兴:我希望设计属于我们自己的具身智能基础模型,进行大规模预训练,真正实现Scale Up。