当前位置:首页 > 科技资讯 > 正文

具身智能:AI新潮流与巨头卡位战

具身智能:AI新潮流与巨头卡位战 具身智能 AI大模型 机器人 互联网巨头 第1张

撰文 | 程书书 编辑 | 李信马 题图 | 豆包 AI

2023年5月,英伟达创始人黄仁勋在ITF World半导体大会上断言:“AI的下一个浪潮是具身智能。” 这一断言迅速被产业趋势所验证,从春晚舞台上的扭秧歌,到机器人大会上的跳舞和打拳击赛,具身智能正以前所未有的速度进入公众视野。

具身智能:AI新潮流与巨头卡位战 具身智能 AI大模型 机器人 互联网巨头 第2张

在这个关乎未来的赛道上,腾讯、阿里、字节、京东、美团等互联网巨头纷纷入场,不再满足于云端的算法竞争,而是希望将AI“装进身体”。投资、自研、生态共建……一场AI时代的“抢滩登陆战”已然打响。

01.AI大模型引爆具身智能

具身智能是什么?

具身智能的概念最早可以追溯到1950年,根据全国科学技术名词审定委员会的定义,具身智能(Embodied Artificial Intelligence, EAI)是一种基于物理实体进行感知和行动的智能系统,通过智能体与环境的交互来获取信息、理解问题、作出决策并执行行动,从而展现出智能行为和适应性。

与传统的人工智能不同,后者主要存在于计算机程序、云端服务器中的虚拟智能,依赖于抽象的符号计算和数据处理,而具身智能则更注重通过物理实体的感知、运动以及与外部环境的交互来实现认知,构成“感知-思考-行动”的闭环。

如今,很多人将具身智能等同于人形机器人,但实际上,具身智能系统的实现形式并非局限于人形结构,而是可以根据场景需求适配多样化的智能实体。例如,具备环境感知能力的智能扫地机器人、用于高空作业的无人机、已进入路测阶段的自动驾驶汽车等,都是具身智能的具体应用载体。

2022年12月,谷歌发布机器人大模型RT-1,“大模型+机器人”概念兴起。随后,微软于2023年2月发表论文,公布ChatGPT应用于机器人的研究成果,展示了大模型提升机器人人机交互能力的潜力。

同年7月,基于RT-1的研究成果,Google融合了视觉语言模型(VLM)和RT-1中收集的大量机器人真实动作数据,提出了视觉语言动作(VLA)模型RT-2。该模型可以从网络和机器人数据中学习大量知识,并将这些知识转化为机器人控制的通用指令。这使得机器人也能像ChatGPT一样理解自然语言,并根据自然语言做出一系列动作,包括数学推理、人物辨认以及适应各种新环境和新任务。

RT-2展现出的各项能力,刷新了大众对传统机器人模型的认知,也让市场看到了通过堆叠人工智能(AI)算力,可以实现人机多轮交互的高度智能化。不仅能完成文本、图片甚至视频生成,还能应用到硬件尤其是具有运动能力的硬件上——即所谓的“具身智能”。其中最直观的产品就是人形机器人。

具身智能:AI新潮流与巨头卡位战 具身智能 AI大模型 机器人 互联网巨头 第3张

图源:2025世界机器人大会

随着AI大模型与机器人技术的深度融合,场景通用性持续提升,人形机器人商业化进程不断加速。与此同时,产业政策也在及时跟进和密集出台。

2023年11月,国家工信部印发《人形机器人创新发展指导意见》,指出人形机器人有望成为计算机、智能手机、新能源汽车之后又一颠覆性产品。2024年1月,工信部等七部门联合印发《关于推动未来产业创新发展的实施意见》,人形机器人位列“创新标志性产品”之首。

今年3月5日,国务院总理李强在《2025年政府工作报告》中首次提及具身智能,将其列为未来产业的重点发展方向之一。此后,地方政府也纷纷出台相关政策推动具身智能产业的发展。例如北京市计划到2027年实现不少于100项规模化应用;深圳市则提出到2027年相关企业超过1200家,产业规模达到1000亿元以上。

结语

互联网大厂们在具身智能领域选择了不同的战略布局和发展路径。这些差异化的战略既反映了各自的核心优势和业务需求也塑造着中国具身智能产业的未来格局。

随着技术不断成熟和应用场景持续拓展具身智能有望成为继移动互联网之后的下一个重要技术平台。对大厂们来说如何平衡投资成本与回报周期以及实现技术突破与商业落地的有效结合将成为决定其战略成败的关键。