Generalist是Google DeepMind高级研究科学家Pete Florence创立的具身智能模型公司。近日,它推出了一款名为GEN-0的全新具身基础模型,该模型能够随着物理交互数据的增长而可预测地扩展——这不仅仅依赖于文本、图像或模拟数据。在训练过程中,研究团队还一定程度上验证了具身智能领域的规模法则(Scaling Law)。
Generalist的早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等知名机构,但具体融资金额尚未披露。
Generalist由Google DeepMind高级研究科学家Pete Florence联合创立,他在Google期间曾主导研发PaLM-E、RT-2等视觉及具身智能模型,Google学术引用量超过19000次。
与Pete Florence共同创办Generalist AI的还有CTO Andrew Barry和首席科学家Andy Zeng。Andrew Barry曾在波士顿动力任职,而Andy Zeng则与Pete Florence在Google合作完成了PaLM-E等项目。Generalist的核心团队还包括来自OpenAI、Waymo等顶尖公司的资深研究员,他们此前都产出过高质量的研究成果。
Generalist的愿景是打造通用机器人,创始人Pete Florence表示:“我们的目标坚定不移,那就是创造出无所不能的机器人。请想象一个体力劳动边际成本趋近于零的世界。”
目前,Generalist首先聚焦于机器人的灵巧操作,在模型与数据层面不断探索前沿技术。
Generalist的首个阶段性成果便是全新的具身基础模型——GEN-0,该模型基于高保真度的原始物理交互数据进行多模态训练。其架构在借鉴视觉和语言模型优势的基础上实现了突破,原生设计旨在捕捉人类水平的反应反射与物理常识。
GEN-0的核心特征之一是“和谐推理”(Harmonic Reasoning),即模型被训练成能够无缝地同时进行思考与行动。对于语言模型,在回应前花费更多时间思考是可行的,但对于必须在现实世界中行动的物理系统而言,模型必须即时反馈,反应时间越短越好。
例如,当你向机器人扔一个玻璃杯,如果机器人的反应时间过长,杯子就会摔碎。在物流机器人场景中,如果机器人在车流或人流中行进时反应稍慢,就很容易发生碰撞。
为了解决机器人在物理世界中的快速推理(反应)问题,已有一些解决方案,例如Figure的Helix采用了“系统1(快思考)+系统2(慢思考)”架构,但它仍需要显式设计切换逻辑。
而“和谐推理”则可以在连续时间中实现思考与行动的并行处理,模型能够同时维护两个异步、连续时间流:
感知流:持续接收传感器数据;
行动流:持续输出控制指令。
这两个流在连续时间域中“和谐”交织,无需显式同步点。这使得模型无需采用更复杂的快慢双系统架构,并且能够扩展到非常大的规模。
Generalist的规模化实验表明,GEN-0模型必须足够大,才能有效吸收海量的物理交互数据。
在训练扩展过程中,他们发现了模型智能容量中的“相变”点:
1B(10亿)参数模型在预训练期间难以吸收复杂多样的感知运动数据——模型权重随时间推移逐渐无法吸收新信息;
6B(60亿)参数模型开始从预训练中受益,并展现出强大的多任务能力;
7B(70亿)以上参数模型能够内化大规模的机器人预训练数据,仅需数千步后训练即可将能力迁移至下游任务。
扩展GEN-0模型尺寸能够提升模型在完全未见(即零样本)的长序列下游任务中的性能,性能指标为下一动作验证预测误差(y轴,越低越好)。
这是首次在具身智能领域观察到模型的固化现象。固化现象此前曾在高数据量环境下的大语言模型文献中被观察到,但涉及的模型要小得多,参数量级在千万级而非十亿级。在具身智能领域,这一相变发生在远大于语言模型的参数规模上,这一观察也呼应了莫拉维克悖论:人类觉得轻而易举的感知和灵巧动作,其计算复杂度远超抽象推理。
此后,Generalist将GEN-0的规模扩展至10B(100亿)以上参数,并观察到模型能以越来越少的后训练数据快速适应新任务。
在训练过程中,GEN-0模型展现出较为明显的规模法则,即更多的预训练数据和计算资源,能够持续且可预测地提升模型在众多任务中的下游后训练性能。
具体来说,在模型达到足够大的规模后,可观察到预训练数据规模与下游后训练性能之间存在着强大的幂律关系。这适用于各种机器人的测试任务,包括来自服装、制造、物流、汽车和电子等多个工业领域的应用场景和工作流程。
Generalist在论文中还拟合出了预测公式:
其中:
L(D) 是给定预训练数据量D时下游任务的验证误差;
Dc是特征数据规模常数;
αD是缩放指数。
有了这个公式,就可以回答关键问题:“要达到特定的下一动作预测误差,我们需要多少预训练数据?”或“增加预训练数据量可以为我们节省多少(针对特定任务的)后训练数据?”等问题。
论文指出,结合Scaling Law,这些结果可以预测任何下游后训练任务的最优计算和数据分配。
既然已经证明具身智能模型的规模法则,数据的量和质就变得非常重要。GEN-0模型在一个巨大的自有数据集上训练,这个数据集包含了在全球数千个家庭、仓库和工作场所中,从多样化活动中收集的27万小时真实世界操控轨迹,并且这个数量还在加速增长。
GEN-0的训练所使用的真实世界操控数据量,比迄今为止存在的某些最大规模的机器人数据集要高出几个数量级。
通过大规模实验,Generalist发现数据质量和多样性比纯粹的数据量更为重要,精心构建的数据混合可以产生具有不同特性的预训练模型。
因为数据和GEN-0模型架构的设计优势,它可以适用于不同的机器人,该模型已在6自由度(DoF)、7自由度以及超过16自由度的半人形机器人上成功进行测试。
机器人的基础模型,此前已有不少顶尖创业公司在探索。其中Physical Intelligence走的路线与Generalist类似,即基础模型+微调,其模型已迭代到π 0.6,新模型可以制作浓缩咖啡,完成从浇注、磨豆到擦拭的全过程,而且能够从早到晚连续制作,这体现了其连续长序列任务完成能力和鲁棒性。
Skild AI的模型则强调泛化性,它支持多形态机器人(人形、四足、臂等)泛化,在演示中能完成爬楼梯、平衡恢复、杂乱环境抓取等任务。
这两个公司的模型还有一个共同技术特点,就是能够根据机器人实际运行过程中积累的“经验”自主进化。
前文提到的Figure的Helix采用“系统1(快思考)+系统2(慢思考)”架构,能够支持机器人在工厂的实际环境中完成复杂操作,并实现多机器人的协作。
可以看出,尽管已有众多顶尖公司投身具身智能基础模型,但该领域的技术思路尚未收敛,数据也还不够丰富。而且,目前具身智能在实际商业化和落地上,仍缺乏足够多的成功案例。
但我们也看到,曙光越来越近。具身智能的规模法则已在一定程度上得到验证,模型的多形态泛化、动作延时、连续长序列任务完成等难题,也正在被逐一攻克。
每攻克一个问题,整个具身智能行业的潜力就会更大,未来商业化落地的前景也就更为光明。
中国创业者在具身智能领域创业具有独特优势:国内硬件产业链更成熟,应用场景丰富,数据来源有巨大的开发潜力。若创业者能够同时发展硬件和软件(包括模型),实现软硬件结合,并在一两个具体场景中持续创造价值,就有可能脱颖而出。
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260225767.html