当前位置:首页 > 科技资讯 > 正文

具身智能开源浪潮:中美模型竞争与未来展望

在人工智能与机器人技术交汇的尖端领域,具身智能正成为当今科技界最具潜力和广阔前景的方向之一。其中,机器人/具身大模型扮演着“中枢大脑”的关键角色,使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此,大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的核心环节。

9月8日,中国具身智能公司自变量机器人开源了其具身模型WALL-OSS;紧接着的9月9日,美国具身智能公司Physical Intelligence(简称PI)也开源了π₀.₅模型。中美两家公司几乎同时开源模型,这并非偶然。2025年,具身大模型的开源生态正进入百花齐放的发展阶段。

这一态势让人联想到过去几年以ChatGPT为代表的语言大模型演进路径:从2018年开源社区初步兴起,到2020年5月ChatGPT-3引发全球瞩目,语言大模型用了三年时间走向成熟。那么,机器人大模型距离属于它的“GPT-3时刻”还有多远?

本期《硅谷101》,主播泓君邀请了自变量机器人CTO王昊,以及Physical Intelligence研究员、π₀和π₀.₅论文作者柯丽一鸣(Kay Ke),共同探讨今年机器人模型领域的重要突破、当前面临的挑战、中美机器人发展路径的差异,以及全场景落地的时间表。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第1张

以下是这次对话内容的精选:

01 行业突破与泛化能力

泓君:你们认为整个2025年,机器人模型领域最重要的突破是什么?

柯丽一鸣:我从事机器人研究约七八年,机器人大模型的兴起主要在最近两三年集中爆发。早期研究多聚焦于小而精的任务,虽能在特定场景下解决问题,但难以低成本、便捷地复制到新任务中。探索大模型后,最大惊喜是验证了模型的通用性,从而开启泛化与性能提升的探索,这为机器人大模型的可能性奠定了基础。如今,行业对大模型技术路线的信心远高于两三年前。

王昊:今年一个显著现象是应用呈现指数效应,这得益于通用机器人基础模型的进步。2023年前,业界常专注于单个任务的极致优化;如今,借助统一的基础模型,机器人能同时学习并执行成百上千种任务,优化目标转向提升模型在所有任务上的平均成功率。这为指数效应奠定基础,使机器人能处理复杂的长程任务(Long-Horizon Task,指包含连续步骤、需多步推理、规划与执行的复杂任务),这是一个令人振奋的进展。

泓君:我总结关键词,一是机器人模型的泛化探索,二是复杂的长任务。请举例说明,有哪些任务机器人以前做不到,现在能做到了?或以前局限于特定场景,现在能迁移到其他场景?

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第2张

柯丽一鸣:2024年,PI发布了π₀模型,旨在推动泛化能力。典型例子是叠衣服任务,这在机器人领域已研究十几到二十年。看似简单的日常任务,对机器人而言复杂度极高:衣服可能有不同折痕、角度,机器人需应对多样情况并执行序列性步骤。2025年,我们进一步探索泛化,例如将π₀.₅模型部署到移动机器人,置于未见过的家庭环境中。尽管表现不完美,但机器人展现出类人特性,如在陌生场景中仍能抓取物品。

泓君:它抓取哪类物品?衣服是软布料,但杯子、碗等硬物是否不同?

柯丽一鸣:是的,这类问题在机器人领域称为抓取问题,需结合物体形状、位置、接近角度等因素。抓取既简单又复杂:即使同一水杯在不同环境中,策略也需调整。真正的泛化要求机器人能在新环境、新物体上完成任务,这需要层层递进的测试。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第3张

泓君:π₀.₅相比π₀的进化表现在哪?例如适应新环境的能力?任务可迁移性如何?哪些任务还不可迁移?规律是什么?

柯丽一鸣:π₀.₅强调泛化,我们主动收集多样化数据。但“不同”数据难以定义,因此将机器人置于不同房屋测试。我们一边收集数据,一边检验效果。幸运的是,收集大量数据后,训练出的模型在验证中展现出更强泛化能力,在新环境中表现更优。当然,仍存在局限性,性能提升空间很大,落地需持续优化。

泓君:机器人模型研发中,泛化问题最难环节是什么?是数据量小、算法问题还是其他?

王昊:难点之一是物理世界长尾效应的鲁棒性,例如环境、光照导致的视觉误差。虽然可通过更好传感器、算力、生成模型做数据合成与增强来缓解,但现实可能性无穷,无法预测所有边角案例(corner case)。例如机器人执行任务时,桌布褶皱、杯子不稳、透明物体反光等微小物理变化,人类可凭直觉适应,但AI大模型依赖数据驱动,面临新挑战时可能表现不佳。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第4张

另一难点是长程任务中,微小物理扰动导致的误差会像滚雪球一样放大,最终导致任务失败。解决核心在于构建能理解物理常识、具备物理直觉的模型基础,使其拥有空间理解与推理能力。这需要整合机器人真实数据、人类视频数据等,扩大数据规模、丰富来源、提升质量与多样性,让机器人从中学习物理规律。但真实世界交互的高保真数据稀缺,采集不只关乎数据量,还涉及数据工程与管线,如降低采集成本。

柯丽一鸣:难点众多。从研究角度,测试机器人模型表现是一大挑战。语言模型有榜单排名,但机器人领域数十年来无法在真机世界建立客观、公正、可重复的评测榜单。模型在不同场景表现不一,边角案例无穷无尽;真机评测还需考虑硬件维护、细节影响。缺乏统一评价机制延缓了具身智能发展,因为难以分辨模型优劣。业界正探索模拟器或第三方评测标准,但仍在初期阶段。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第5张

泓君:中国有机器人运动会和展会,展示踢足球、赛跑等能力。从这些Demo能判断技术优劣吗?

王昊:这很困难,是具身领域的痛点。缺乏统一评测标准,难以低成本、公平地评估模型。最佳评测是现实世界测试,但搭建公平环境不易。不过,有些方法可尝试:例如,基于开源模型,在不同机器人本体上比较学习相同任务所需数据量、泛化与推理能力;或将机器人应用于具体场景,观察模型表现。真实世界的随机性与多样性最能体现模型能力。

02 数据挑战与硬件瓶颈

泓君:刚才提到难点,Kay说了第一点,还有两点是什么?

柯丽一鸣:第二点是数据质量与数量,2025年仍难兼得。高质量数据需精心设计与清洗,如大语言模型训练对质量敏感。机器人数据多自行收集与清洗,追求细节会限制数量。我们需要又多、又好、又快的数据以提升模型。

第三点是真机维护。机器人硬件维护劝退许多新人,目前缺乏广泛认可、易于上手的硬件平台,硬件形态仍在争论探索中。这些客观条件抬高了研究门槛。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第6张

开源机器人数据集,图片来源:Open X-Embodiment

泓君:机器人研究员常花时间修机械手。Kay,π模型数据如何采集?有第三方公司提供吗?

柯丽一鸣:行业共识需高质量数据,受大语言模型成功启发。我们数据多自行采集,虽有创业公司提供真机数据,但非我们现阶段重点。

泓君:多少数据能构成优秀大模型?

柯丽一鸣:我有个粗略想法:假设人一生100年约100万小时,目前公开数据集未达此规模。或许需100万小时数据,等同一个人一生的物理经验,才能深入探索。未来机器人广泛部署后,收集100万小时数据可能仅需几天。与语言、图像领域动辄数百万小时数据相比,机器人数据量仍不足。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第7张

泓君:人类1万小时可成专家,宝宝学吃饭也靠练习。为何机器人需更多数据?

柯丽一鸣:人类有基因与躯体优势,如眼睛、关节等感知器,是行动基石。我相信算法可弥补硬件不足,但机器人需大量积累才能快速学习新任务。跨本体迁移数据显示,旧任务数据有助于新任务学习,减少所需数据量。

王昊:与人比不公平,因人有“预训练”。生物进化积累交互认知与策略于基因中,并优化硬件。机器人可大规模复制,共享经验,快速构建预训练模型,熟悉身体并实现跨本体泛化。人类学习是多任务并行,从不同任务中提取底层物理结构,助新任务学习减少数据量。机器人训练也如此:用多样数据覆盖各种能力,构建基础体系,使新任务所需数据大减。百万小时数据核心是覆盖人类进化预训练过程,并通过通用能力泛化到新任务,学习规律一致。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第8张

泓君:真实世界数据量多大?训练具身模型数据成本多高?

柯丽一鸣:π₀数据量超过谷歌研究院总和,尽管PI当时是年轻初创企业。这表明数据量巨大,且随经验积累,采集成本可控降低。

泓君:合成数据用得多吗?谷歌Genie 3世界模型对机器人有帮助吗?

柯丽一鸣:π₀.₅后续论文提到引入网络数据,以增强通用通感。合成数据作用尚无定论,批量生成低成本、可控、有用的数据是理想,但如何实现与证明仍属前沿研究。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第9张

王昊:头部机器人公司数据量因物理限制,在几万到几十万小时范围,少于GPT-4级语言模型。除真实机器人数据,也用其他类型数据,但各有问题。真实数据贵,受硬件、场地、操作员限制;改进方法包括低成本本体或穿戴传感器采集。生成模型合成数据可缓解视觉与现实分布差异,但难生成物理交互数据,后者需现实采集。人类视频数据规模大、多样性高、成本较低,但主要帮助模型学习高级语义理解与任务规划,而非动作级生成。Genie 3从互联网、游戏环境获取高质量数据,通过视频生成做动作控制,是未来方向。数据投入占比因公司运营能力、硬件水平、使用规划而异。中美差异在硬件与人力成本;同一地区,数据过滤、清洗、任务分发、场景搭建能力也影响成本。

泓君:你们公司数据成本在行业中如何?

王昊:难横向比较,因对数据质量、多样性要求不同。但对我们,数据占研发成本相当大比例。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第10张

泓君:9月8日,自变量开源WALL-OSS模型。请简单介绍及其行业特点。

王昊:我们发扬开源精神,用数万小时真实数据训练具身基础模型。在统一框架下,它可做思维链与动作生成。基于训练好的视觉语言模型扩展,具备强视觉理解、空间推理、多语言指令遵循能力,动作生成精度高。这些是当前开源具身模型较欠缺的能力,希望补充行业,助大家用基础模型处理长程任务与复杂问题。解决长程任务需更好语言遵循、空间与因果推理,端到端推理、规划加执行模型可发挥作用。

泓君:你们模型主打点是什么?总结优势。

王昊:最关注机器人泛化与长程任务解决能力。长程任务需强泛化,以应对变化场景、失败情况、未见操作对象。

泓君:请举长而复杂任务的例子。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第11张

王昊:现实场景多长而复杂,如完整收拾餐桌:涉及硬物(餐具)、液体(食物残渣)、不规则物体(垃圾)、柔性物(毛巾),需放置不同位置、处理意外情况。任务无固定顺序,需模型端到端自主决策、实时规划完成。

泓君:实验室评测场景如何?

王昊:训练以家庭场景为主,涵盖具身智能所需所有任务,如收拾餐桌、布置餐具、整理卫生间与房间。我们看到机器人在处理长序列闭环任务时,操作与泛化能力进步,信心大增。希望借开源模型展示基础模型解决长程任务与泛化场景的能力。

03 模型架构与技术路径

泓君:PI和自变量都做开源模型,为什么?开源对生态的好处?

柯丽一鸣:开源可降低机器人模型研究门槛,分享模型助社区快速上手。公司内部,开源是研发过程:决定开源后,重构代码、测试、与开发者沟通。虽不简单,但见模型在未料想的机器人上运行、他人用其做实验,令人开心。开源氛围很好。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第12张

王昊:我一直视开源为要事,意味站巨人肩膀前进。基于现有成果改进,社区反馈助开源公司吸取经验,深化技术路线。高校或小企业若无能力做基础模型,可用开源模型做应用,丰富生态。AI研究与大模型前不同:过去离散,以论文发表为主;现有社区与开源体系后,更重工程化基础建设,贡献社区带来荣誉。这促开源技术持续发展。开源是好事,可学习新知,也助他人。

泓君:模型公司判断模型好坏的核心因素?技术路径多样,如高频控制、双系统架构。聊下不同路径及看好的方式?

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第13张

王昊:自变量相信数据驱动的端到端模型搭建方式,WALL-OSS基于此架构。所有模态(语言、视觉、动作)应在同一空间表征与对齐,避免分层导致信息损失。但端到端训练模型可很大,达数百亿或千亿参数,推理时需分开:慢任务放云端,快任务放物理端侧,通过梯度回传更新系统参数,这很重要。

泓君:双系统架构类似人脑大脑与小脑,负责理解规划与高频控制。你们为何不用?

王昊:我们端到端训练,难在模型内完全分系统,但可训出大端到端模型,具强具身通用能力,含理解推理与动作生成。部署时可优化:蒸馏压缩动作部分,语言推理、视觉推理部分放云端等。推理过程优化,训练时仍统一架构。

泓君:Kay,你们怎么做?

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第14张

柯丽一鸣:我们持开放态度,认为机器人大模型未达GPT-2时刻,但望尽快接近。现有模型有差距。最重数据与数据驱动算法,但架构设计、硬件系统、数据收集皆服务数据驱动。

泓君:推理控制分开或端到端,反非最重要问题?路径未统一。

柯丽一鸣:三四年前行业变化:此前学术界分散,方向想法各异;自视觉语言动作模型(VLA)流行后,越来越多人跟进,方面趋同化。

泓君:趋同化表现?从哪些方向变同一?同指什么?

柯丽一鸣:之一是模仿学习。我2018年做时,行业研究不多,真机研究少,属非主流想法。当时波士顿动力机器人跳跃用模仿学习仍难。业内玩笑:60年代机器人送人上月球,成火箭学科;机器人研究者未明其成功,仍在探索。行业接力包括2000年左右自动驾驶、人形机器人(如波士顿动力)、Willow Garage的PR2机器人(移动机器人先驱)。之前研究方向散于车、手等领域;现因大模型红火,强调通用性,多人尝试融合,是趋同化发展。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第15张

Willow Garage,图片来源:Business Insider

泓君:创业方向多样:足式人形机器人、轮式机器人(重手部操作)、上下身同时操作机器人。大家望模型更大、功能更通用。

柯丽一鸣:“同”指原用不同方法、在不同形态机器人上的人,现开放尝试视觉语言大模型。上半身、下半身形态,π₀.₅即做此事。

泓君:Kay认为机器人模型未达GPT-2水平,王昊怎么看?

王昊:我认为到GPT-2水平。类比:GPT-1是概念验证,GPT-2验证规模化力量,大幅增加参数与数据展示能力提升。规模更大可至GPT-3水平,见能力涌现。现处GPT-2阶段:知规模化是唯一可靠路径,故此阶段疯狂积累数据、提升模型规模,搭建具身智能基础设施。人形机器人处GPT-2阶段较客观。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第16张

泓君:机器人领域到GPT-3时刻还需多久?

王昊:语言模型从GPT-2到GPT-3曾有分散探索。现路径目标更明确唯一,预测1~2年可达GPT-3水平。

泓君:美国路径想做通用机器人、超大规模模型,类比自动驾驶直接做L4/L5;中国多小而精创业,如自动驾驶先落地园区、码头。怎么看这两方式?最终结果差异?哪条路径能成?

王昊:需结合中美优势。美国路径自上而下、不计成本,优先做近AGI的超大模型,再思考应用。因美国算力优势,顶级芯片、算力集群集中,倾向用无限算力探索能力边界。中国芯片有限制,倒逼企业在有限算力下提升效率。但说中国走小而精路线,我不同意。中国有全球最大互联网生态与移动应用场景,硬件产业链完善,美国难比。国内顶尖研究机构与创业公司从第一性原理思考Scaling law,这是通AGI必经之路。我们坚信需强大、无所不能的基础模型,才可应用到垂直领域高效部署,过程不可逆。国内像上下结合、双轨并行,一方面多考虑通用泛化场景,一方面迭代通用基础模型能力,更快获现实世界反馈,实现商业闭环与数据飞轮。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第17张

泓君:你个人也做通用模型?

王昊:对,我们必做通用模型,这很重要。

柯丽一鸣:两边生态有历史因素。国内经济高速发展,创业成功因公司存活、商业化好,促使从解决问题、用户需求出发,深耕垂直领域。如中国除草机器人受欧美家庭欢迎,中国企业擅商业化。中国制造业强,机器人硬件需求大,国内做硬件优势无人能比。国内生态中,创业常一边保证商业成功,一边做探索。我毕业这一年幸运:早两年毕业的朋友机器人研究优秀但转行做大语言模型、强化学习。与其说美国公司一直做大而通用模型,不如说2024年前后恰巧涌现一批相信此路的人。这归功OpenAI做大语言模型成功,给行业反思震撼。我加入PI时讨论:做人形机器人行吗?烧钱?道路?商业化?公司存活?商业化不明朗,这些公司凤毛麟角,有时机成立、有人相信能成。此前美国工业界有机器学习应用公司,如Covariant Robotics(伯克利教授创立),其创业经历启发后人。外界看Covariant深耕商业点成功,但通用性未做好。我们公司最大目标做通用、数据驱动,故小心避免短期商业项目。历史因素导致现公司生态如此。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第18张

泓君:Covariant更多做灵巧手,非研究模型。

柯丽一鸣:好笑的是,他们起步时,创始人Peter Abbeel作为机器学习机器人领军人物,曾表达将机器学习机器人做到现实生活、通用化。可能因物流上太成功,大家记其另一模样。

泓君:他们内部研究通用解决方案与模型层?

柯丽一鸣:相信早期有探索,因当年无人知机器学习机器人应用能成什么样。现很多企业与研究者受其经验启发,走现路。

04 商业化与落地前景

泓君:研究机器人望其做家务,如叠床单、叠衣服、洗碗。未来真能有家用机器人做家务吗?还需多久拥有通用型机器人?

王昊:做家务是完美的机器人图灵测试,含所有精细动作:切菜需力道控制;处理易碎物需丰富感知;长程规划如看菜谱做菜、看说明书用电器;意外处理等,囊括所有挑战。完全实现需分步走。两三年内,可在半结构化环境让机器人做简单事,如厨房内简单做菜、洗碗。完全开放厨房所有事做到,需五年左右。

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第19张

泓君:五年左右,机器人在厨房做饭、洗碗?

王昊:对,有可能。但需容忍失误:虽成功率较高,非100%,故允机器人与人协作、获人类帮助,五年可进家庭。我较乐观,因机器人发展走正确道路,有Scaling law快速规律,在人类历史演进中幸运,有明确路径:投入算力数据、迭代模型架构、提升机器能力,肉眼见机器人提升。现困难五年后可解,模型将跨阈值入新阶段,预测五年合理。但需审慎:机器人不似纯软件轻资产快迭代,受物理定律限,硬件发展,需全方位突破数据、算法、供应链、商业模式等,才真做到。

泓君:大胆预测。

柯丽一鸣:5~10年落地应可。现模型算法未达“商业化即出产品”地步,但行业迭代快,加热情投入,相信两三年甚至每年有大变化。具身智能行业与自动驾驶、火箭升天等传统机器人行业不同,更似扫地机器人:最早扫地机器人不完美,需用户明白能做什么、不能做什么,是好商业化典范。以此为目标,保守估计5~10年做出产品,可能偶出错,但错在用户范围内,成帮用户产品。

我好奇:以产业化为目标的机器人公司,如何兼顾商业化与研发?

具身智能开源浪潮:中美模型竞争与未来展望 具身智能 开源模型 机器人泛化 技术路径 第20张

王昊:好问题。创业公司第一天就思考仰望星空与脚踏实地。因现实因素,不可能达AGI再商业化,我们策略是在通用模型基础上,让它进某些场景做事,场景须与最终通用场景接近、可泛化,故尽可能不碰封闭场景。公共服务、养老服务场景好,与通用机器人最终应用场景类似,涉复杂任务(如与人接触)与简单任务(如打扫、拿东西、处理食材)。这些是好场景,因可不断迭代检验通用模型能力,获宝贵数据反馈。但保持初心,需强商业化路径定力。

另重点是公司组织能力。组织能力与结构决定公司上限。公司须以通用模型、基础模型为目标,达无壁垒、高效协同组织,促中间每一步不走错,达终极目标。

泓君:你重训练场景能否商业化应用,而非封闭化场景需求。家用机器人做饭、洗衣、叠被子,能否有足够销量养活公司?

王昊:很有希望。现机器人产业规模未起,规模起后硬件成本有非常大降低空间。模型水平提升加硬件成本降,几年后价格用户接受度更高。功能角度,若帮普通用户做多事,用户乐意接受。现用户难接受因机器人似只跳舞、做情绪陪伴,无其他功能;以前无机会展示应用,未来展示机会多,想象空间大。