当前位置:首页 > 科技资讯 > 正文

具身智能2025:从狂热追捧到理性落地的真实图景

具身智能,这个2025年科技圈最炙手可热的概念,究竟是颠覆未来的革命性突破,还是资本催生的又一泡沫?

年初,宇树科技以一款售价仅5900美元的R1人形机器人震撼业界。就在一年前,行业普遍认为人形机器人的成本底线仍在2万至3万美元区间徘徊,宇树这一举动,直接将整个行业的价格预期击得粉碎,开启了大众化普及的序幕。

紧接着,Figure AI的估值从2024年的26亿美元一路狂飙至390亿美元,实现了惊人的15倍增长。其投资方阵容堪称科技圈的奥斯卡颁奖典礼:微软、OpenAI、英伟达、贝佐斯、英特尔、三星等巨头赫然在列。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第1张

资本市场疯狂押注,仿佛具身智能的全面商用近在咫尺,一场生产力革命即将爆发。

但与此同时,特斯拉喊出要生产5000台Optimus的豪言壮语,实际仅组装了约1000台便按下暂停键,面临重新设计。马斯克那句“特斯拉八成的价值将来自于Optimus”的豪言,在残酷的现实面前显得有些尴尬,凸显了从实验室到量产的巨大鸿沟。

这一冷一热,确实让人困惑。具身智能究竟发展到了哪一步?本篇文章将从算法、硬件、数据、资本以及主要玩家的技术路线等多个维度,为大家一一展开深度解读。

01 具身智能是什么?为何在2025年迎来爆发?

在深入行业现状之前,我们先厘清什么是具身智能。

如果说ChatGPT是“会说话”的AI,那么具身智能就是“会动手”的AI。其核心是VLA模型,即视觉-语言-动作模型。它将三个关键能力整合到一个神经网络中:Vision(视觉):感知和理解当前场景;Language(语言):解析任务目标和常识知识;Action(动作):输出精确的控制指令,驱动机器人执行。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第2张

简而言之,它赋予了机器人三项核心能力:看得懂环境、听得懂指令、做得到动作。

这跟传统机器人有何本质区别?

打个比方,传统工业机器人就像只会背诵固定台词的演员,严格遵循预设程序执行;而具身智能机器人则更像能够即兴表演的演员,它能理解环境变化,自主做出决策和调整。

例如,你让它叠毛巾,传统机器人需要毛巾每次的摆放位置完全一致。但具身智能机器人能识别出:这次毛巾皱了、位置偏了,它会自动调整动作轨迹,照样把毛巾叠好,展现出强大的泛化能力。

Dyna Robotics是硅谷炙手可热的具身智能初创公司,成立仅一年,A轮融资就达到1.2亿美元,估值6亿美元,投资方包括英伟达。而“叠毛巾”这个看似简单的任务,正是让Dyna一战成名的demo。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第3张

York Yang

Dyna Robotics联合创始人

VLA的核心在于,我们以大语言模型领域的VLM作为‘backbone’(核心骨架),但在最终输出时,会将这些理解转化为机器人可执行的‘action’(动作)。直观理解,action就像是‘把手臂移动到某个坐标点’这样的具体指令。

VLA常被诟病的一点是:为什么需要L(Language,即语言)?因为在传统的机器人算法里,很多都是纯基于视觉。但仔细想想,人类大脑在执行复杂任务时,会产生类似语言的内在逻辑,告诉自己在长线任务中,第一步做什么,第二步做什么。

L的作用就在于,对于一些非常复杂的任务,它可以利用大语言模型已经训练出来的逻辑性知识进行处理。比如你要喝水,它知道需要找杯子或瓶子。这是大语言模型可以直接赋予的能力。利用VLA的主要目的,就是如何将Language(语言)与Vision(视觉)更好地结合。如果只有Vision,你能做的任务可能都是短线的,无法胜任任何需要推理的长线任务。因此,引入语言部分是VLA的关键所在。

这就是质的飞跃:机器人不再是执行固定程序的机械臂,而是通过视觉-语言-动作的融合,成为一个能理解、能规划、能适应的智能体。

具身智能并非新概念,为何偏偏在2025年突然爆发?主要有三大驱动力。

第一,大模型技术趋于成熟,为具身智能提供了强大的认知基础。

无论是OpenAI还是其他公司近期发布的大模型,能力提升更多体现为增量式演进,而非早期从GPT-3.5到GPT-4那样的跨越式跃迁。在这一背景下,大模型的整体能力趋于稳定,已足以作为具身智能系统的可靠基础能力层。

ChatGPT证明了,大语言模型能理解复杂指令、进行推理规划。这套能力可以迁移到机器人上:你说“帮我做早餐”,它能规划出“先拿鸡蛋、再打蛋、然后开火煎”这样的多步骤序列。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第4张

第二,算力成本持续下降,大幅降低了训练和部署的门槛。随着芯片厂商不断推出性能更强的新一代芯片,等效算力的单位成本呈现长期下降趋势。2023年,租一张NVIDIA H100 GPU还是天价。如今,云服务的算力价格战愈演愈烈,训练大模型的成本大幅降低。以前只有头部公司玩得起的游戏,现在创业公司也能参与其中。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第5张

第三,硬件供应链日益成熟,机器人核心部件成本下降。

机器人硬件的整体零部件成熟度已经较高。尤其是在过去一年人形机器人热潮的推动下,大量资本和工程资源投入到核心基础部件的研发中,包括电机、减速器等关键组件,使得相关技术持续成熟,成本不断下降。

宇树直接把价格打到5900美元,而此前行业普遍认为2-3万美元的区间才能实现规模化生产。成本曲线的陡降,让商业化不再是天方夜谭。

这三股力量叠加,将具身智能从实验室推向了商业化的前夜。但这并非盲目的乐观,而是基于技术成熟度的理性判断。那么,目前具身智能的能力边界在哪里?它能做什么,还不能做什么?

02 机器人现在能做什么?

Chapter 2.1 已落地的能力:工业和商业场景的实用化

我们先来看已经能做到的事情:工业和商业场景已出现实际应用。

叠毛巾、叠衣服,听起来简单,但Dyna的机器人能做到24小时叠700条毛巾,成功率高达99.4%。这在酒店、洗衣房已是实打实的生产力。而且他们的基础模型包含了多种场景数据,如切菜、切水果、准备食物、早餐清洁和物流分拣等。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第6张

宝马集团BMW的工厂里,Figure的机器人在做简单装配和物料搬运。Agility Robotics的Digit在仓储物流场景搬箱子。1X也已向瑞典巨头EQT交付最多1万台1X Neo人形机器人,主要应用于制造、仓储、物流等工业场景。更别提亚马逊已经部署了超过100万台专用机器人,几乎超过其156万人类员工的数量。

这些都不是Demo,而是真实在跑的商业项目。这就是“理性前行”——不求全能,但求实用。

Chapter 2.2:正在攻克的任务:长线任务与协同作业

目前有什么还做不到、但头部公司正在攻克的任务呢?例如中等难度的任务,像做早餐。

这是个“长线任务”,需要规划多个步骤:拿食材、切菜、摆盘、开火、翻炒。每一步都要精准执行,还得控制力度,不能把鸡蛋捏碎,也不能切到手。Dyna最新的demo显示,他们已经攻克了做早餐这个长线任务。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第7张

而Figure也展示过两台机器人协同工作的Demo,一台递工具,一台操作。这在家用场景很有潜力,但稳定性仍在打磨中。

Chapter 2.3:仍面临的挑战:非结构化环境与零容错要求

最难的是家务。因为每个家庭环境都独一无二,光照变化、物品随意摆放、家庭成员走动等,这些都是“非结构化环境”的巨大挑战。

相比之下,工厂是“结构化环境”,光线固定、物品位置固定、流程标准化。但家里完全是另一回事。而且家务还有个致命要求:零容错。机器人在工厂打碎零件,损失可控;在家里打碎碗甚至伤到人,那就是严重事故。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第8张

王浩

自变量机器人CTO

例如,机器人执行任务时,桌布上有一个小的褶皱,可能导致杯子放置不稳;透明物体反光,可能干扰视觉识别。这些微小的物理变化,人类可以凭直觉和丰富经验瞬间适应,但由于机器人非常依赖数据驱动,AI大模型面对这些新挑战时,不一定能真正感知和应对。

因此,机器人进入家庭,技术门槛远高于进入工厂。但这不意味着遥不可及。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第9张

York Yang

Dyna Robotics联合创始人

我们认为,最开始肯定是在我们当前开拓的一些市场,比如商用服务,让机器人与人工协同完成部分任务。但我们觉得家用其实也没有那么遥远,并不需要完整的、非常通用的AGI。你可能只需要几个核心任务就可以先进入家庭场景,让机器人先在家里面干起活来,然后通过模型迭代逐渐产生更多能力。

当然,当硬件成本降到普通家庭可承担的范围内,我们可能会优先以某个功能(如叠衣服)切入家庭,然后逐渐拓展其他功能。这个时间线应该也不遥远,可能就在1~2年左右。

这就是“理性前进”——不是等到机器人变成科幻电影里的全能管家再推向市场,而是从一个明确的、用户真正需要的功能切入,逐步迭代。

03 2025年的技术突破

虽然挑战重重,但2025年确实涌现出几个值得关注的技术突破。业内人士坦诚地告诉我们,每一个突破都不是革命性的,但都是实实在在的进步。

Chapter 3.1 突破点1:双系统架构成为主流

许多公司开始采用所谓“System 1 + System 2”的架构。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第10张

System 1是“快思考”,负责反射性动作,如抓取、移动,参数量小,响应快,可能只有8000万参数。

System 2是“慢思考”,负责复杂规划,如“做早餐”这种多步骤任务,参数量大,可能有70亿参数。

这种分工很像人类大脑:你伸手接球是本能反应,但规划一顿饭需要仔细思考。

Figure AI的Helix模型就是这个架构的代表作。它们在和OpenAI“分手”后,两周内迅速推出这个自研模型,创新性地用单一神经网络控制整个上半身的35个自由度,还能同时控制两台机器人协作。

这种架构的成功,证明了机器人基础模型和大语言模型的Scaling Law可能不同——不是越大越好,而是需要找到合适的参数分配策略。

Chapter 3.2 突破点2:合成数据驱动数据革命

机器人数据为什么如此昂贵?原因很简单:人类一天只有24小时,收集真实操作数据太慢、太贵。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第11张

NVIDIA的解决方案是:用模拟器生成合成数据。他们展示过,11小时内生成78万条操作轨迹,相当于6500小时或连续九个月的人类演示数据。虽然合成数据与真实数据存在差距,但至少缓解了“数据荒”的燃眉之急。

但这里有个关键的技术权衡。

York Yang

Dyna Robotics联合创始人

我们之前也和许多做大语言模型的同行交流过,他们发现,语言方向的数据,哪怕混入大量低质量数据(比如文本中夹杂广告),模型仍能训练出较好效果,因为数据量足够大时,模型会自动过滤噪声。但是机器人领域,我们认为规模化目前更多依赖于高质量数据。如果囊括太多繁杂的数据,机器人模型可能无法聚焦,最终效果并不理想。

Chapter 3.3 突破点3:跨机器人泛化能力初现

Physical Intelligence的π0模型、开源的OpenVLA模型都能控制多种不同的机器人。同一套模型或策略,不需要为每一种机器人重新训练,就能够在不同形态、不同硬件配置的机器人上有效工作,这就是跨机器人泛化能力。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第12张

这意义重大。以前每种机器人都要单独训练模型,成本高昂;现在一个模型适配多种机器人,数据可以共享,成本大幅降低。

但技术难点也很明显:不同机器人的动作空间差异巨大,手臂长短、关节数量各不相同,如何让一个模型都能控制好?这种在完全陌生环境也能工作的能力,虽非100%完美,但已是实质性的进步。

Chapter 3.4 突破点4:多机协同取得进展

Figure展示过用单一神经网络协调两台机器人协作。创新性地用单一神经网络,控制整个上半身的35个自由度,同时还能控制两台机器人协同作业。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第13张

听起来简单,实际上难度很高。两台机器人需要互相配合,时序、力度、位置都要精准同步。这在未来工厂场景会很有价值,但现在仍处于早期验证阶段。

这些技术突破,没有一个是颠覆性的,但每一个都在扎实推进。这正是2025年的特点:不再追求炫酷的Demo,而是在可验证、可量化、可复现的方向上稳步前进。

技术突破是一方面,但行业里还有几座大山没翻过去。清楚认识这些难题,恰恰是“理性前进”的前提,也让现在的具身智能来到了大爆发的前夜。

04 尚未解决的核心难题

Chapter 4.1 难题1:数据困境

首先,是数据困境。ChatGPT训练用了万亿级token,相当于把整个互联网的文字都喂给了它。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第14张

但机器人操作数据极度稀缺。Google训练RT-2模型,花了17个月在真实厨房收集13万条数据,场景泛化能力依然有限。

为什么机器人数据这么难收集?因为需要真实机器人在真实环境操作,每一条数据都要花钱花时间,出错还可能损坏设备。这不像文本数据,爬虫跑一跑就有了。所以大多数机器人基础模型仍依赖于少量真实数据加大量模拟合成数据,结合强化学习/自监督方法。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第15张

柯丽一鸣

Physical Intelligence研究员

假设一个人的一生是100年,粗略估算大约100万个小时。就我目前所见或公开信息来看,似乎还没有人拥有100万小时级别的机器人数据集。我猜测,当我们能够收集到100万小时(等同于一个人一生的物理经验)的数据时,可能才真正开始后面的探索。

如果说数据是机器人的“石油”,那么现在这口井还没打出来。

Chapter 4.2 难题2:Sim-to-Real Gap(仿真到现实的鸿沟)

在虚拟世界训练机器人很便宜,可以同时跑几万个模拟器。但虚拟世界永远不等于真实世界。就像你玩赛车游戏很厉害,不代表真的会开F1。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第16张

真实世界的摩擦力、柔软度、光线变化太复杂,仿真只能还原部分真实物理特性。剩下的就是机器人从模拟器到真实世界“水土不服”的根源。NVIDIA的Genesis和Isaac模拟器在努力缩小这个gap,但完全消除还需要时间。

Chapter 4.3 难题3:Embodiment Gap(具身鸿沟)

人手有27个关节,能感知压力、温度、质地。机器人的灵巧手通常只有15-22个关节,传感器也没那么精细。即使完美模仿人类的动作轨迹,效果也不同。人类能轻柔地拿起鸡蛋,机器人可能一用力就捏碎。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第17张

York Yang

Dyna Robotics联合创始人

第一,人类的手和机器人的手,如果想实现很好的能力迁移,需要做得非常接近。这也是为什么现在很多人在研发很灵巧的灵巧手,尽量接近人的自由度,但这本身非常困难。

第二,即使再接近,也不可能完全一样。所以在机器人的数据和人的数据之间仍存在一个鸿沟,即我们所谓的embodiment gap。这个gap在学术界和工业界都被公认为较难解决的问题。数据迁移的效率会比较低,哪怕采集了大量数据,如果只有30%或50%可用,总有效数据量就需要乘以这个系数,这是其局限性所在。

这就意味着,特斯拉想用YouTube上海量人类视频训练Optimus的策略,面临巨大的技术挑战。这也是为什么特斯拉在生产了1000台后暂停重新设计。理想很美好,现实很骨感。

Chapter 4.4 难题4:可靠性要求极高

ChatGPT回答错了,用户笑笑就过去了。机器人动作错了,可能砸坏东西、伤到人。这是质的区别。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第18张

具身智能必须达到极高的可靠性,才能真正走进工厂、走进家庭。这个标准比大语言模型严苛得多。

Chapter 4.5 难题5:成本困境

目前人形机器人价格需要降到2万美元左右,才能在物流等场景形成足够吸引力。但价格下降需要规模化生产,规模化生产需要大量订单,大量订单又需要价格足够低。这是个循环困境,需要有人先打破僵局。宇树的5900美元定价就是在尝试打破这个僵局,但能否引发价格战,带动整个行业降本,还需要观察。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第19张

认清这些难题,不是悲观,而是理性。正是因为目前初创公司们都很实在地承认这些瓶颈存在,具身智能才来到了爆发的前夜。

05 主要玩家和技术路线

Chapter 5.1 硬件巨头:Tesla、Figure——软硬件一体化,打造数据闭环

这一派公司包括特斯拉和Figure,他们的策略是软硬件一体化,通过自研硬件和数据闭环构建护城河。

Tesla利用FSD自动驾驶技术的积累,将视觉感知、路径规划的能力迁移到Optimus上,还能用工厂的生产线积累数据。前工程主管Milan Kovac说得很直白:“我们只是从轮子上的机器人变成长着腿的机器人。”

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第20张

但现实比预期复杂。5000台的目标只完成了五分之一,就不得不暂停重新设计。这说明即使是特斯拉这样的巨头,在embodiment gap面前也要低头。

Figure则在和OpenAI“分手”后,独立开发了Helix模型,自己掌控技术路线。两周内推出的Helix模型,展示了他们确实有技术实力。15倍的估值涨幅,也证明资本市场对这条路线的认可。但他们真正商业化部署的也就几十台。Demo很精彩,规模化还在路上。

Chapter 5.2 AI公司:PI和Skild AI——模型先行,跨平台适配

与多家同时押注硬件的机器人初创公司不同,这些公司的策略是模型先行,跨平台适配。

Physical Intelligence的π0模型不绑定特定硬件,能适配多种机器人。他们的逻辑是:先把模型能力做强,硬件可以后续选择最优方案。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第21张

另一家是Skild AI,专注于构建机器人基础模型的软件公司。Skild AI的核心方向同样是打造一种与具体机器人形态无关的通用基础模型,可根据不同机器人平台和应用场景进行适配与定制。今年7月,Skild AI发布了其通用机器人系统Skild Brain,并公开演示视频,展示机器人完成拿取餐具、上下楼梯等操作能力。近期软银与英伟达正计划对它投资10亿美元,将其估值提升到140亿美元。

Chapter 5.3 生态平台:NVIDIA、Google——提供基础设施,定义行业标准

第三类是主打生态的平台。

NVIDIA提供模拟器和算力基础设施,推出GR00T N1并开源,但要用就得用全套NVIDIA生态。Google则在学术研究上持续投入,RT系列模型影响了整个学术界。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第22张

他们为整个行业提供“水电煤”。谁能制定行业标准,谁就掌握了生态控制力。

这三种路线,都在前进。没有哪一派已经占据绝对优势,大家都在试错、迭代、调整。

06 总结与展望:未来还未来,但已不遥远

回到开头的问题:具身智能是泡沫还是未来?

答案是:2025年,具身智能正在从“先锋亮相”转向“理性前行”。

技术上,大模型+机器人的结合已经跑通,但远未成熟。数据、泛化、可靠性这些核心难题还没完全解决。

如果用“GPT时刻”来类比,自变量机器人CTO王浩认为,我们现在是GPT-2的水平。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第23张

王浩

自变量机器人CTO

我会觉得现在就是在GPT-2的阶段。其实我们现在基本上已经知道规模化是唯一可靠的路径,所以我们就是要在这个阶段疯狂地积累数据,提升模型规模,同时搭建真实具身的基础设施。我预测1~2年内,我们完全可以达到GPT-3的水平。

注意,是GPT-3,不是GPT-4。这是毫不花哨的判断。由于研究员们看到了规模化带来的提升,所以路径和目标更加明确,也更加唯一。

在商业上,工业场景开始试点,仓储、制造、服务业都有落地案例。但大规模商用可能还需要2-3年时间。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第24张

York Yang

Dyna Robotics联合创始人

我们自己的目标是在明年至少在商用场景实现较大规模的部署。家用我们会择机看,这个时间线应该也不遥远,可能就在1~2年左右。

投资上,可以说泡沫和机会并存。有公司估值飙升,也有公司暂停生产,也有公司因资金链断裂而破产。开源机器人公司K-Scale Labs融资失败倒闭,Figure AI拿钱拿到手软,这两个极端同时存在,说明市场正在分化。虽然具身智能的长期趋势确定,但短期波动剧烈。

具身智能2025:从狂热追捧到理性落地的真实图景 具身智能 人形机器人 VLA模型 商业化落地 技术突破 第25张

而具身智能第一个“杀手级”应用场景会是什么?有可能是家务任务,也可能是仓储物流,或者是餐饮清洁服务。而无论是哪个场景,都已经有重量级玩家在布局。具身智能不是“会不会发生”的问题,而是“什么时候发生”。

2025年,我们正站在这场革命的起点。行业不再只展示炫酷的Demo,而是开始脚踏实地验证技术、打磨产品、寻找场景。

特斯拉暂停生产,不是失败,而是在重新设计,寻找更可靠的路径。

Figure AI估值飙升,不只是资本炒作,而是他们交出了Helix这样的实质成果。

Dyna从叠毛巾切入,不是格局小,而是在积累数据飞轮,培养模型的学习能力。

Physical Intelligence部分开源π0,不是不够开放,而是在商业利益和技术分享之间找平衡。

这种在现有基础上稳步提升,恰恰是行业走向成熟的标志。2025年,具身智能行业已经从“画大饼”,进化到卷起袖子和面团。这个饼,正在一点一点,有分寸地,变成现实。