当前位置:首页 > 科技资讯 > 正文

宇树科技:重塑机器人模型架构,探索具身智能未来

宇树科技:重塑机器人模型架构,探索具身智能未来 宇树科技 机器人模型 具身智能 VLA 第1张

《智能涌现》制图

文|邱晓芬

编辑|苏建勋

在业界普遍认知中,宇树是一家专注于机器人本体研发的公司。然而,在近期举行的世界机器人大会(WRC)上,宇树科技创始人王兴兴的一番言论,颠覆了这一传统印象。

在WRC的主题演讲中,王兴兴着重讨论了模型、算法和数据的重要性,其观点引发了行业的广泛讨论。例如,对于当前备受瞩目的VLA(Vision-Language-Action)技术路线,王兴兴持保留态度,甚至称其为“相对傻瓜式的架构”。

他认为,由于具身领域的现存数据量不足,VLA模型在与真实世界交互时,数据的质量和数量均不足以支撑其性能。尽管许多具身公司正通过堆真机数据、仿真数据甚至建立数据采集工厂来弥补这一不足,但王兴兴强调,基础数据的关注度过高,反而忽视了模型架构的改进。

“宇树的模型团队其实不算小”

王兴兴多次公开表示,宇树的核心优势在于机器人本体硬件而非大脑。然而,在WRC期间,他向《智能涌现》等媒体透露,尽管宇树在模型投入上保持谨慎,但“模型团队人数算多的”,只是与AI大厂相比仍显不足。

宇树科技:重塑机器人模型架构,探索具身智能未来 宇树科技 机器人模型 具身智能 VLA 第2张

△王兴兴接受媒体采访中 《智能涌现》拍摄

尽管如此,王兴兴坚信,在模型上部署人员数量与最终结果并不直接相关。他指出,从过去AI领域的经验来看,创新不一定在大厂中发生。一个中小型团队也有可能创造出更好的模型,但压力也会很大。

在大脑路线的选择上,王兴兴选择了多方下注。他提出的另一个引发行业热议的论点,是关于当下最热门的“VLA”。

王兴兴并不认同在VLA模型尚未完善的情况下就盲目堆数据的做法。他认为,一个能力更强的具身模型可能只需要很少的数据就能以更高的成功率进行训练。

当然,宇树并非完全排斥VLA。在演讲中,王兴兴也提到宇树正在尝试在VLA模型上加AI进行训练。

不过,在大脑路线上,宇树显然更倾向于视频的路线。去年谷歌已经发布了视频驱动的世界模型而早在去年宇树就已经尝试了类似的方法。

具体来说就是先让视频生成模型生成一个「机器人整理房间」的视频再用这个视频去驱动机器人完成整理房间的任务。

宇树科技:重塑机器人模型架构,探索具身智能未来 宇树科技 机器人模型 具身智能 VLA 第3张

△王兴兴演讲截图

王兴兴预测这种视频的路线未来可能会比VLA的路线发展更快收敛的概率更大。然而这种路线也并非完美无缺。由于视频质量要求高会导致GPU消耗过多。

但对于未来机器人的算力问题王兴兴也有了一定的预期。

他判断未来机器人领域需要搭建低成本、大规模、分布式的算力集群。例如如果一个工厂里有 100 个机器人那工厂里面大概率可以搭建一个分布式的服务器集群因为机器人需要更低的通讯延迟。

宇树机器人:表演为主还是实干为先?

从今年春晚的机器人表演到WAIC、WRC的机器人格斗这让很多人误以为宇树的机器人只表演不干活。

尤其是新入局者都在努力将机器人引入工厂进行拧螺丝、叠衣服、叠被子等任务形成了鲜明对比。

王兴兴坦言现阶段让机器人进工厂、进家庭干活并不现实而表演则是机器人相对容易落地的方向。

相反在宇树的内部思考如何让机器人干活的员工是最多的。

他也解释了为什么宇树很少对外宣传机器人干活的场景——“机器人干活对于AI模型的挑战很大目前我们的实现也并不理想。”

对于“干活”这件事王兴兴提出了自己的见解——他希望机器人不应该只做单功能性的事情比如整理衣服、烧菜而应该是通用型、多功能的比如能在工厂端茶倒水又能做表演。

王兴兴也对机器人的未来发展做出了判断:机器人的ChatGPT时刻最快可能在未来2-3年内实现最慢可能是3-5年。他认为这波具身智能浪潮不会超过10年。

封面来源|作者拍摄

宇树科技:重塑机器人模型架构,探索具身智能未来 宇树科技 机器人模型 具身智能 VLA 第4张

欢迎关注