当前位置：首页 > 科技资讯 > 正文

具身智能开源浪潮：中美模型竞争与未来展望

主机测评网
科技资讯
2025-12-31
361

在人工智能与机器人技术交汇的尖端领域，具身智能正成为当今科技界最具潜力和广阔前景的方向之一。其中，机器人/具身大模型扮演着“中枢大脑”的关键角色，使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此，大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的核心环节。

9月8日，中国具身智能公司自变量机器人开源了其具身模型WALL-OSS；紧接着的9月9日，美国具身智能公司Physical Intelligence（简称PI）也开源了π₀.₅模型。中美两家公司几乎同时开源模型，这并非偶然。2025年，具身大模型的开源生态正进入百花齐放的发展阶段。

这一态势让人联想到过去几年以ChatGPT为代表的语言大模型演进路径：从2018年开源社区初步兴起，到2020年5月ChatGPT-3引发全球瞩目，语言大模型用了三年时间走向成熟。那么，机器人大模型距离属于它的“GPT-3时刻”还有多远？

本期《硅谷101》，主播泓君邀请了自变量机器人CTO王昊，以及Physical Intelligence研究员、π₀和π₀.₅论文作者柯丽一鸣（Kay Ke），共同探讨今年机器人模型领域的重要突破、当前面临的挑战、中美机器人发展路径的差异，以及全场景落地的时间表。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第1张

以下是这次对话内容的精选：

01 行业突破与泛化能力

泓君：你们认为整个2025年，机器人模型领域最重要的突破是什么？

柯丽一鸣：我从事机器人研究约七八年，机器人大模型的兴起主要在最近两三年集中爆发。早期研究多聚焦于小而精的任务，虽能在特定场景下解决问题，但难以低成本、便捷地复制到新任务中。探索大模型后，最大惊喜是验证了模型的通用性，从而开启泛化与性能提升的探索，这为机器人大模型的可能性奠定了基础。如今，行业对大模型技术路线的信心远高于两三年前。

王昊：今年一个显著现象是应用呈现指数效应，这得益于通用机器人基础模型的进步。2023年前，业界常专注于单个任务的极致优化；如今，借助统一的基础模型，机器人能同时学习并执行成百上千种任务，优化目标转向提升模型在所有任务上的平均成功率。这为指数效应奠定基础，使机器人能处理复杂的长程任务（Long-Horizon Task，指包含连续步骤、需多步推理、规划与执行的复杂任务），这是一个令人振奋的进展。

泓君：我总结关键词，一是机器人模型的泛化探索，二是复杂的长任务。请举例说明，有哪些任务机器人以前做不到，现在能做到了？或以前局限于特定场景，现在能迁移到其他场景？

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第2张

柯丽一鸣：2024年，PI发布了π₀模型，旨在推动泛化能力。典型例子是叠衣服任务，这在机器人领域已研究十几到二十年。看似简单的日常任务，对机器人而言复杂度极高：衣服可能有不同折痕、角度，机器人需应对多样情况并执行序列性步骤。2025年，我们进一步探索泛化，例如将π₀.₅模型部署到移动机器人，置于未见过的家庭环境中。尽管表现不完美，但机器人展现出类人特性，如在陌生场景中仍能抓取物品。

泓君：它抓取哪类物品？衣服是软布料，但杯子、碗等硬物是否不同？

柯丽一鸣：是的，这类问题在机器人领域称为抓取问题，需结合物体形状、位置、接近角度等因素。抓取既简单又复杂：即使同一水杯在不同环境中，策略也需调整。真正的泛化要求机器人能在新环境、新物体上完成任务，这需要层层递进的测试。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第3张

泓君：π₀.₅相比π₀的进化表现在哪？例如适应新环境的能力？任务可迁移性如何？哪些任务还不可迁移？规律是什么？

柯丽一鸣：π₀.₅强调泛化，我们主动收集多样化数据。但“不同”数据难以定义，因此将机器人置于不同房屋测试。我们一边收集数据，一边检验效果。幸运的是，收集大量数据后，训练出的模型在验证中展现出更强泛化能力，在新环境中表现更优。当然，仍存在局限性，性能提升空间很大，落地需持续优化。

泓君：机器人模型研发中，泛化问题最难环节是什么？是数据量小、算法问题还是其他？

王昊：难点之一是物理世界长尾效应的鲁棒性，例如环境、光照导致的视觉误差。虽然可通过更好传感器、算力、生成模型做数据合成与增强来缓解，但现实可能性无穷，无法预测所有边角案例（corner case）。例如机器人执行任务时，桌布褶皱、杯子不稳、透明物体反光等微小物理变化，人类可凭直觉适应，但AI大模型依赖数据驱动，面临新挑战时可能表现不佳。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第4张

另一难点是长程任务中，微小物理扰动导致的误差会像滚雪球一样放大，最终导致任务失败。解决核心在于构建能理解物理常识、具备物理直觉的模型基础，使其拥有空间理解与推理能力。这需要整合机器人真实数据、人类视频数据等，扩大数据规模、丰富来源、提升质量与多样性，让机器人从中学习物理规律。但真实世界交互的高保真数据稀缺，采集不只关乎数据量，还涉及数据工程与管线，如降低采集成本。

柯丽一鸣：难点众多。从研究角度，测试机器人模型表现是一大挑战。语言模型有榜单排名，但机器人领域数十年来无法在真机世界建立客观、公正、可重复的评测榜单。模型在不同场景表现不一，边角案例无穷无尽；真机评测还需考虑硬件维护、细节影响。缺乏统一评价机制延缓了具身智能发展，因为难以分辨模型优劣。业界正探索模拟器或第三方评测标准，但仍在初期阶段。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第5张

泓君：中国有机器人运动会和展会，展示踢足球、赛跑等能力。从这些Demo能判断技术优劣吗？

王昊：这很困难，是具身领域的痛点。缺乏统一评测标准，难以低成本、公平地评估模型。最佳评测是现实世界测试，但搭建公平环境不易。不过，有些方法可尝试：例如，基于开源模型，在不同机器人本体上比较学习相同任务所需数据量、泛化与推理能力；或将机器人应用于具体场景，观察模型表现。真实世界的随机性与多样性最能体现模型能力。

02 数据挑战与硬件瓶颈

泓君：刚才提到难点，Kay说了第一点，还有两点是什么？

柯丽一鸣：第二点是数据质量与数量，2025年仍难兼得。高质量数据需精心设计与清洗，如大语言模型训练对质量敏感。机器人数据多自行收集与清洗，追求细节会限制数量。我们需要又多、又好、又快的数据以提升模型。

第三点是真机维护。机器人硬件维护劝退许多新人，目前缺乏广泛认可、易于上手的硬件平台，硬件形态仍在争论探索中。这些客观条件抬高了研究门槛。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第6张

开源机器人数据集，图片来源：Open X-Embodiment

泓君：机器人研究员常花时间修机械手。Kay，π模型数据如何采集？有第三方公司提供吗？

柯丽一鸣：行业共识需高质量数据，受大语言模型成功启发。我们数据多自行采集，虽有创业公司提供真机数据，但非我们现阶段重点。

泓君：多少数据能构成优秀大模型？

柯丽一鸣：我有个粗略想法：假设人一生100年约100万小时，目前公开数据集未达此规模。或许需100万小时数据，等同一个人一生的物理经验，才能深入探索。未来机器人广泛部署后，收集100万小时数据可能仅需几天。与语言、图像领域动辄数百万小时数据相比，机器人数据量仍不足。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第7张

泓君：人类1万小时可成专家，宝宝学吃饭也靠练习。为何机器人需更多数据？

柯丽一鸣：人类有基因与躯体优势，如眼睛、关节等感知器，是行动基石。我相信算法可弥补硬件不足，但机器人需大量积累才能快速学习新任务。跨本体迁移数据显示，旧任务数据有助于新任务学习，减少所需数据量。

王昊：与人比不公平，因人有“预训练”。生物进化积累交互认知与策略于基因中，并优化硬件。机器人可大规模复制，共享经验，快速构建预训练模型，熟悉身体并实现跨本体泛化。人类学习是多任务并行，从不同任务中提取底层物理结构，助新任务学习减少数据量。机器人训练也如此：用多样数据覆盖各种能力，构建基础体系，使新任务所需数据大减。百万小时数据核心是覆盖人类进化预训练过程，并通过通用能力泛化到新任务，学习规律一致。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第8张

泓君：真实世界数据量多大？训练具身模型数据成本多高？

柯丽一鸣：π₀数据量超过谷歌研究院总和，尽管PI当时是年轻初创企业。这表明数据量巨大，且随经验积累，采集成本可控降低。

泓君：合成数据用得多吗？谷歌Genie 3世界模型对机器人有帮助吗？

柯丽一鸣：π₀.₅后续论文提到引入网络数据，以增强通用通感。合成数据作用尚无定论，批量生成低成本、可控、有用的数据是理想，但如何实现与证明仍属前沿研究。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第9张

王昊：头部机器人公司数据量因物理限制，在几万到几十万小时范围，少于GPT-4级语言模型。除真实机器人数据，也用其他类型数据，但各有问题。真实数据贵，受硬件、场地、操作员限制；改进方法包括低成本本体或穿戴传感器采集。生成模型合成数据可缓解视觉与现实分布差异，但难生成物理交互数据，后者需现实采集。人类视频数据规模大、多样性高、成本较低，但主要帮助模型学习高级语义理解与任务规划，而非动作级生成。Genie 3从互联网、游戏环境获取高质量数据，通过视频生成做动作控制，是未来方向。数据投入占比因公司运营能力、硬件水平、使用规划而异。中美差异在硬件与人力成本；同一地区，数据过滤、清洗、任务分发、场景搭建能力也影响成本。

泓君：你们公司数据成本在行业中如何？

王昊：难横向比较，因对数据质量、多样性要求不同。但对我们，数据占研发成本相当大比例。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第10张

泓君：9月8日，自变量开源WALL-OSS模型。请简单介绍及其行业特点。

王昊：我们发扬开源精神，用数万小时真实数据训练具身基础模型。在统一框架下，它可做思维链与动作生成。基于训练好的视觉语言模型扩展，具备强视觉理解、空间推理、多语言指令遵循能力，动作生成精度高。这些是当前开源具身模型较欠缺的能力，希望补充行业，助大家用基础模型处理长程任务与复杂问题。解决长程任务需更好语言遵循、空间与因果推理，端到端推理、规划加执行模型可发挥作用。

泓君：你们模型主打点是什么？总结优势。

王昊：最关注机器人泛化与长程任务解决能力。长程任务需强泛化，以应对变化场景、失败情况、未见操作对象。

泓君：请举长而复杂任务的例子。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第11张

王昊：现实场景多长而复杂，如完整收拾餐桌：涉及硬物（餐具）、液体（食物残渣）、不规则物体（垃圾）、柔性物（毛巾），需放置不同位置、处理意外情况。任务无固定顺序，需模型端到端自主决策、实时规划完成。

泓君：实验室评测场景如何？

王昊：训练以家庭场景为主，涵盖具身智能所需所有任务，如收拾餐桌、布置餐具、整理卫生间与房间。我们看到机器人在处理长序列闭环任务时，操作与泛化能力进步，信心大增。希望借开源模型展示基础模型解决长程任务与泛化场景的能力。

03 模型架构与技术路径

泓君：PI和自变量都做开源模型，为什么？开源对生态的好处？

柯丽一鸣：开源可降低机器人模型研究门槛，分享模型助社区快速上手。公司内部，开源是研发过程：决定开源后，重构代码、测试、与开发者沟通。虽不简单，但见模型在未料想的机器人上运行、他人用其做实验，令人开心。开源氛围很好。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第12张

王昊：我一直视开源为要事，意味站巨人肩膀前进。基于现有成果改进，社区反馈助开源公司吸取经验，深化技术路线。高校或小企业若无能力做基础模型，可用开源模型做应用，丰富生态。AI研究与大模型前不同：过去离散，以论文发表为主；现有社区与开源体系后，更重工程化基础建设，贡献社区带来荣誉。这促开源技术持续发展。开源是好事，可学习新知，也助他人。

泓君：模型公司判断模型好坏的核心因素？技术路径多样，如高频控制、双系统架构。聊下不同路径及看好的方式？

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第13张

王昊：自变量相信数据驱动的端到端模型搭建方式，WALL-OSS基于此架构。所有模态（语言、视觉、动作）应在同一空间表征与对齐，避免分层导致信息损失。但端到端训练模型可很大，达数百亿或千亿参数，推理时需分开：慢任务放云端，快任务放物理端侧，通过梯度回传更新系统参数，这很重要。

泓君：双系统架构类似人脑大脑与小脑，负责理解规划与高频控制。你们为何不用？

王昊：我们端到端训练，难在模型内完全分系统，但可训出大端到端模型，具强具身通用能力，含理解推理与动作生成。部署时可优化：蒸馏压缩动作部分，语言推理、视觉推理部分放云端等。推理过程优化，训练时仍统一架构。

泓君：Kay，你们怎么做？

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第14张

柯丽一鸣：我们持开放态度，认为机器人大模型未达GPT-2时刻，但望尽快接近。现有模型有差距。最重数据与数据驱动算法，但架构设计、硬件系统、数据收集皆服务数据驱动。

泓君：推理控制分开或端到端，反非最重要问题？路径未统一。

柯丽一鸣：三四年前行业变化：此前学术界分散，方向想法各异；自视觉语言动作模型（VLA）流行后，越来越多人跟进，方面趋同化。

泓君：趋同化表现？从哪些方向变同一？同指什么？

柯丽一鸣：之一是模仿学习。我2018年做时，行业研究不多，真机研究少，属非主流想法。当时波士顿动力机器人跳跃用模仿学习仍难。业内玩笑：60年代机器人送人上月球，成火箭学科；机器人研究者未明其成功，仍在探索。行业接力包括2000年左右自动驾驶、人形机器人（如波士顿动力）、Willow Garage的PR2机器人（移动机器人先驱）。之前研究方向散于车、手等领域；现因大模型红火，强调通用性，多人尝试融合，是趋同化发展。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第15张

Willow Garage，图片来源：Business Insider

泓君：创业方向多样：足式人形机器人、轮式机器人（重手部操作）、上下身同时操作机器人。大家望模型更大、功能更通用。

柯丽一鸣：“同”指原用不同方法、在不同形态机器人上的人，现开放尝试视觉语言大模型。上半身、下半身形态，π₀.₅即做此事。

泓君：Kay认为机器人模型未达GPT-2水平，王昊怎么看？

王昊：我认为到GPT-2水平。类比：GPT-1是概念验证，GPT-2验证规模化力量，大幅增加参数与数据展示能力提升。规模更大可至GPT-3水平，见能力涌现。现处GPT-2阶段：知规模化是唯一可靠路径，故此阶段疯狂积累数据、提升模型规模，搭建具身智能基础设施。人形机器人处GPT-2阶段较客观。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第16张

泓君：机器人领域到GPT-3时刻还需多久？

王昊：语言模型从GPT-2到GPT-3曾有分散探索。现路径目标更明确唯一，预测1～2年可达GPT-3水平。

泓君：美国路径想做通用机器人、超大规模模型，类比自动驾驶直接做L4/L5；中国多小而精创业，如自动驾驶先落地园区、码头。怎么看这两方式？最终结果差异？哪条路径能成？

王昊：需结合中美优势。美国路径自上而下、不计成本，优先做近AGI的超大模型，再思考应用。因美国算力优势，顶级芯片、算力集群集中，倾向用无限算力探索能力边界。中国芯片有限制，倒逼企业在有限算力下提升效率。但说中国走小而精路线，我不同意。中国有全球最大互联网生态与移动应用场景，硬件产业链完善，美国难比。国内顶尖研究机构与创业公司从第一性原理思考Scaling law，这是通AGI必经之路。我们坚信需强大、无所不能的基础模型，才可应用到垂直领域高效部署，过程不可逆。国内像上下结合、双轨并行，一方面多考虑通用泛化场景，一方面迭代通用基础模型能力，更快获现实世界反馈，实现商业闭环与数据飞轮。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第17张

泓君：你个人也做通用模型？

王昊：对，我们必做通用模型，这很重要。

柯丽一鸣：两边生态有历史因素。国内经济高速发展，创业成功因公司存活、商业化好，促使从解决问题、用户需求出发，深耕垂直领域。如中国除草机器人受欧美家庭欢迎，中国企业擅商业化。中国制造业强，机器人硬件需求大，国内做硬件优势无人能比。国内生态中，创业常一边保证商业成功，一边做探索。我毕业这一年幸运：早两年毕业的朋友机器人研究优秀但转行做大语言模型、强化学习。与其说美国公司一直做大而通用模型，不如说2024年前后恰巧涌现一批相信此路的人。这归功OpenAI做大语言模型成功，给行业反思震撼。我加入PI时讨论：做人形机器人行吗？烧钱？道路？商业化？公司存活？商业化不明朗，这些公司凤毛麟角，有时机成立、有人相信能成。此前美国工业界有机器学习应用公司，如Covariant Robotics（伯克利教授创立），其创业经历启发后人。外界看Covariant深耕商业点成功，但通用性未做好。我们公司最大目标做通用、数据驱动，故小心避免短期商业项目。历史因素导致现公司生态如此。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第18张

泓君：Covariant更多做灵巧手，非研究模型。

柯丽一鸣：好笑的是，他们起步时，创始人Peter Abbeel作为机器学习机器人领军人物，曾表达将机器学习机器人做到现实生活、通用化。可能因物流上太成功，大家记其另一模样。

泓君：他们内部研究通用解决方案与模型层？

柯丽一鸣：相信早期有探索，因当年无人知机器学习机器人应用能成什么样。现很多企业与研究者受其经验启发，走现路。

04 商业化与落地前景

泓君：研究机器人望其做家务，如叠床单、叠衣服、洗碗。未来真能有家用机器人做家务吗？还需多久拥有通用型机器人？

王昊：做家务是完美的机器人图灵测试，含所有精细动作：切菜需力道控制；处理易碎物需丰富感知；长程规划如看菜谱做菜、看说明书用电器；意外处理等，囊括所有挑战。完全实现需分步走。两三年内，可在半结构化环境让机器人做简单事，如厨房内简单做菜、洗碗。完全开放厨房所有事做到，需五年左右。

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第19张

泓君：五年左右，机器人在厨房做饭、洗碗？

王昊：对，有可能。但需容忍失误：虽成功率较高，非100%，故允机器人与人协作、获人类帮助，五年可进家庭。我较乐观，因机器人发展走正确道路，有Scaling law快速规律，在人类历史演进中幸运，有明确路径：投入算力数据、迭代模型架构、提升机器能力，肉眼见机器人提升。现困难五年后可解，模型将跨阈值入新阶段，预测五年合理。但需审慎：机器人不似纯软件轻资产快迭代，受物理定律限，硬件发展，需全方位突破数据、算法、供应链、商业模式等，才真做到。

泓君：大胆预测。

柯丽一鸣：5～10年落地应可。现模型算法未达“商业化即出产品”地步，但行业迭代快，加热情投入，相信两三年甚至每年有大变化。具身智能行业与自动驾驶、火箭升天等传统机器人行业不同，更似扫地机器人：最早扫地机器人不完美，需用户明白能做什么、不能做什么，是好商业化典范。以此为目标，保守估计5～10年做出产品，可能偶出错，但错在用户范围内，成帮用户产品。

我好奇：以产业化为目标的机器人公司，如何兼顾商业化与研发？

具身智能开源浪潮：中美模型竞争与未来展望具身智能开源模型机器人泛化技术路径第20张

王昊：好问题。创业公司第一天就思考仰望星空与脚踏实地。因现实因素，不可能达AGI再商业化，我们策略是在通用模型基础上，让它进某些场景做事，场景须与最终通用场景接近、可泛化，故尽可能不碰封闭场景。公共服务、养老服务场景好，与通用机器人最终应用场景类似，涉复杂任务（如与人接触）与简单任务（如打扫、拿东西、处理食材）。这些是好场景，因可不断迭代检验通用模型能力，获宝贵数据反馈。但保持初心，需强商业化路径定力。

另重点是公司组织能力。组织能力与结构决定公司上限。公司须以通用模型、基础模型为目标，达无壁垒、高效协同组织，促中间每一步不走错，达终极目标。

泓君：你重训练场景能否商业化应用，而非封闭化场景需求。家用机器人做饭、洗衣、叠被子，能否有足够销量养活公司？

王昊：很有希望。现机器人产业规模未起，规模起后硬件成本有非常大降低空间。模型水平提升加硬件成本降，几年后价格用户接受度更高。功能角度，若帮普通用户做多事，用户乐意接受。现用户难接受因机器人似只跳舞、做情绪陪伴，无其他功能；以前无机会展示应用，未来展示机会多，想象空间大。