当前位置:首页 > 科技资讯 > 正文

Generalist发布新型具身基础模型,探索具身智能的Scaling Law

Generalist,由Google DeepMind高级研究科学家Pete Florence创立,是一家专注于具身智能模型的公司。近日,Generalist推出了一款名为GEN-0的新型具身基础模型。该模型能够随着物理交互数据的增长而可预测地扩展,不仅限于文本、图像或模拟数据。在训练过程中,他们部分证实了具身智能的Scaling Law。

Generalist发布新型具身基础模型,探索具身智能的Scaling Law 具身智能 具身基础模型 Scaling 通用机器人 第1张

Generalist的早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等知名投资机构,但具体金额未公开。

DeepMind与波士顿动力专家共探具身智能的Scaling Law

Generalist由Pete Florence联合Andrew Barry(CTO)和Andy Zeng(首席科学家)共同创立。Andrew Barry曾在波士顿动力任职,而Andy Zeng则与Pete Florence一起在Google研发了PaLM-E等项目。Generalist的核心团队还包括来自OpenAI、Waymo等顶尖公司的资深研究人员,他们的贡献不容小觑。

Generalist致力于通用机器人的研发,创始人Pete Florence表示:“我们的目标坚定不移,那就是创造出无所不能的机器人。所以,请想象这样一个世界:体力劳动的边际成本降至为零。”

目前,Generalist主要聚焦于机器人的灵巧性,在模型和数据等方面不断探索前沿。

Generalist的第一个里程碑是全新的具身基础模型——GEN-0。该模型基于高保真度原始物理交互数据的多模态训练,其架构在借鉴视觉和语言模型优势的基础上实现了超越,旨在捕捉人类水平的反应反射与物理常识。

“和谐推理”

GEN-0的核心特征之一是“和谐推理”(Harmonic Reasoning),即模型被训练成能够无缝地同时进行思考与行动。对于语言模型,长时间思考是可行的,但在物理世界中,机器人必须即时反馈,反应时间越短越好。

例如,如果你扔一个玻璃杯给机器人,如果反应时间过长,杯子就可能摔碎。同样,在物流机器人场景中,如果反应稍慢,就可能导致碰撞。

为了解决机器人在物理世界的快速推理问题,已有多种解决方案。例如,Figure的Helix采用了“系统1(快思考)+系统2(慢思考)”架构,但仍需显式设计切换逻辑。

“和谐推理”则能在连续时间中思考与行动,模型可同时维护两个异步、连续时间流:

感知流:持续接收传感器数据

行动流:持续输出控制指令

这两个流在连续时间域中“和谐”交织,无需显式同步点。这能让模型无需使用复杂的系统架构,并扩展到非常大的规模。

具身智能模型的“相变”点

Generalist的规模化实验显示,GEN-0模型必须足够大才能处理海量的物理交互数据。

在训练扩展过程中,他们发现了模型智能容量中的“相变”点。1B(10亿)参数模型在预训练期间难以吸收复杂多样的感知运动数据;6B(60亿)参数模型开始受益并展现强大的多任务能力;7B(70亿)以上参数模型能够内化大规模机器人预训练数据,并快速迁移至下游任务。

Generalist发布新型具身基础模型,探索具身智能的Scaling Law 具身智能 具身基础模型 Scaling 通用机器人 第2张

扩展GEN-0模型尺寸能提升模型在未见长序列下游任务中的性能。这是首次在具身智能领域观察到模型的固化现象。

具身智能模型的Scaling Law

在训练过程中,GEN-0模型展现出明显的Scaling Law,即更多的预训练数据和计算资源能持续提升模型性能。

具体来说,在模型达到足够大的规模后,预训练数据规模与下游后训练性能间存在强大的幂律关系。这适用于各种机器人任务,包括服装、制造、物流、汽车和电子等多个领域。

Generalist发布新型具身基础模型,探索具身智能的Scaling Law 具身智能 具身基础模型 Scaling 通用机器人 第3张

有了这个公式,可以回答关键问题:“要达到特定的预测误差,需要多少预训练数据?”或“增加预训练数据量能节省多少后训练数据?”等。

论文指出,结合Scaling Law,这些结果能预测任何下游后训练任务的最优计算和数据分配。

具身智能发展早期,但每步突破都让它离落地更近

虽然已有不少顶尖公司在探索机器人的基础模型,但具身智能的技术思路尚未收敛,数据也不够丰富。目前,具身智能在商业化和落地方面仍缺乏足够多的案例。

但曙光已现。具身智能的Scaling Law已被部分发现,多形态泛化、动作延时、连续长序列任务完成等难题也已被或正在攻克。

每攻克一个问题,整个行业的潜力就更大,商业化落地的前景就更好。中国的创业者在此领域具有优势,成熟的硬件产业链和丰富的场景为具身智能的发展提供了巨大潜力。