当前位置:首页 > 科技资讯 > 正文

具身智能新星:星海图VLA模型铺床挑战

文|富充

编辑|苏建勋

在人头攒动的2025WRC(世界机器人大会)上,众多炫酷的机器人表演中,星海图公司的展位显得格外安静。他们展示了一款正在执行铺床任务的机器人。

一些观众对此表示疑惑,他们不明白为何如此简单的工作需要大费周章地展示。

“铺床其实是一个难度极大的任务,它考验了机器人的柔性物体操作、全身控制等能力,以及在各种杂乱床面上完成整理的泛化性。”星海图首席科学家赵行在现场解释道。

具身智能新星:星海图VLA模型铺床挑战 具身智能 VLA模型 泛化性 数据集 第1张

这场演示背后,是星海图新发布的VLA(视觉-语言-动作)端到端基础模型G0。

赵行介绍,之前的小模型虽然能做展示,但规模化应用效果不佳。为了获得真正的泛化能力,还是要做大模型。

目前,具身智能仍处于“非共识阶段”。大语言模型的Scaling Law已被验证,但这一规律能否在机器人领域复现,尚待答案。

赵行将过去十个月的主要精力投入到了数据工程上,包括采集员的培训与考核、真机遥操作采集等。

一位在星海图工作的人士表示:“赵老师是我们的加班搭子,经常半夜还能看到他。”

赵行认为,具备泛化能力的基础模型离不开扎实的真机数据采集与清洗。开源数据集可以缩短开发链条,降低重复采集与标注成本。

随着G0发布,星海图也即将开源在真实场景中采集的500小时真机数据集。

具身智能新星:星海图VLA模型铺床挑战 具身智能 VLA模型 泛化性 数据集 第2张

大模型是具身智能泛化性的基础,高质量数据更重要

智能涌现:WRC期间星海图呈现了具身智能铺床的Demo,比起现场很多敲锣打鼓的表演,它显得没那么“Fancy”,最初是怎么决定做这个展示的?

赵行:其实星海图不算是一个很擅长做Demo的公司。比起酷炫的动作,我们更想展示智能的进展。

展示这个Demo时,用户先通过电视的界面给模型下达铺床的指令;模型接收到这个指令后,就会观察、理解、规划它的任务;在语言规划时,机器人也会同步执行。

智能涌现:G0模型的表现如何?它解决了什么样的问题吗?

赵行:G0模型在平均指标上超越PI 0约20%。此外,我们发现基于开源数据的跨本体预训练在复杂的全身移动控制任务上表现不佳。星海图的开放数据集填补了上述空缺。

高质量数据重要,现阶段会亲力亲为数据工程

智能涌现:所以其实过去这十个月的时间,你的工作重点是数据?

赵行:我觉得算是,主要在于推动高质量数据的采集。毕竟现在无法买到现成的机器人数据。

VLA范式是工业化路径,也在探索多种技术路线

智能涌现:尽管VLA是当前公认的主流范式,但有人认为它不是唯一的解决方法。尤其是仅靠视觉似乎难以在物理世界中实现非常好的交互,也有观点提出要加入触觉,对此你怎么看?

赵行:触觉和世界模型等技术都是非常好的前沿方向。但是星海图作为公司,还是希望技术有工业化路径可依。

学术经验长期受益,产学协同是件好事

智能涌现:你在麻省理工毕业后,又在美国工作。2020年回国发展,回到清华任教,随后又加入星海图,这是因为被国内学术、产业端的哪些优势吸引?

赵行:目前国内做学术的话,清华叉院是最好的地方。姚期智先生给予了我们很大的空间和自由度。