本文深入探讨了人形机器人面临的核心挑战:尽管风险投资机构和大型科技公司投入了数十亿美元用于训练,它们至今仍无法掌握人类般的灵巧操作技能。文章末尾还附有两篇补充短文:一篇讨论双足人形机器人在行走时确保人类安全所需解决的关键问题;另一篇预测15年后,人形机器人的外观将既不同于当前设计,也不会完全模仿人类。
自1956年“达特茅斯人工智能夏季研究项目”首次提出“人工智能”概念以来,研究人员试图让机器人手臂和手部实现物体操控的探索已持续超过65年。
到1961年,海因里希·恩斯特完成了一篇博士论文,描述了一款与麻省理工学院TX-0计算机连接的手臂和手部系统,能够拾取并堆叠方块,这一过程还被视频记录。他的导师是克劳德·香农,并感谢了马文·明斯基的指导——这两人都是达特茅斯人工智能提案的作者之一。
这项研究催生了工业机器人,即配备各种“末端执行器”(简易手部)的计算机控制手臂,60年来已在全球工厂广泛应用。
近年来,新一代研究者开始关注人形机器人的开发,并引发了广泛宣传。高德纳分析指出,人形机器人仍处于发展初期,远未达到宣传峰值。下图显示,人形机器人正处发展周期起点,而生成式人工智能已过峰值并走向低谷:
人形机器人的设计理念是采用人类形态,以便在人类环境中像人类一样工作。这一理念认为,我们无需开发多种专用机器人,只需一种能完成所有人类工作的人形机器人。例如,Figure公司首席执行官表示:“我们要么制造数百万种执行特定任务的不同机器人,要么打造一种具备通用接口、能执行数百万项任务的人形机器人。”他的“总体规划”第一阶段包括:1. 打造功能完备的机电一体化人形机器人;2. 实现类人操控能力;3. 使人形机器人融入劳动力市场。
特斯拉首席执行官近期称其人形机器人“Optimus”可能创造30万亿美元收入,并称之为“全球最大的产品”。这些公司的目标是让人形机器人以更低成本接替人类体力劳动,但作者认为这在数十年内难以实现,尽管部分鼓吹者预测两年内就能看到成效。
作者所在公司专注于仓库机器人研发,但在融资路演中被问及:既然人形机器人即将接管人类工作,为何还研发专用仓库机器人?作者指出,人形机器人的核心价值在于具备人类级别的灵巧性,才能在经济和技术上具备实际意义。
数十年来,全球研究者持续投入人形机器人研发。早稻田大学在20世纪60年代中期开始研究双足行走,70年代初推出首台人形机器人WABOT-1。80年代WABOT-2问世,本田公司在80年代末研发双足行走机器人,最终于2000年推出ASIMO。索尼推出了机器狗Aibo和小型人形机器人QRIO,法国Aldebaran公司推出了NAO和Pepper。波士顿动力在2013年推出了人形机器人ATLAS。
麻省理工学院研究团队于1992年开发人形机器人Cog,作者在2008年创立Rethink Robotics,推出了Baxter和Sawyer人形机器人。意大利的RoboCub项目推动了全球实验室的人形机器人研发。《国际人形机器人期刊》自2004年创刊,已出版多卷研究论文。
自1961年以来,机器人手部操控始终是难题。20世纪60年代中期,平行夹爪抓取器问世,至今仍是主流。下图左侧是作者70年代使用的夹爪,右侧是Rethink Robotics的现代电动夹爪,内置摄像头实现视觉伺服。
德国雄克公司生产多种夹爪,但多关节手指手部尚未达到工业耐用性要求。另一种常见末端执行器是吸盘,用于搬运包装物品。下图是Rethink Robotics的吸盘式抓取器。
研究者开发了多种模仿人类手部的多关节机器人手,例如约翰·霍勒巴赫、肯·索尔兹伯里和松冈洋子的设计,但无一能展现通用灵巧性或投入实际应用。
本杰·霍尔森提出“人形机器人奥运会”构想,列出了15项8岁人类能完成的任务,如折叠衬衫或清理手部花生酱,突显了当前机器人灵巧性的不足。
许多人认为,端到端学习在语音转文字、图像标注和大型语言模型上取得成功,也可应用于灵巧性训练。人形机器人公司和研究者试图通过让机器人观看人类操作视频来学习,但数据收集存在局限:缺乏力反馈和触觉感知,手指控制精度有限,精度仅为1-3厘米。
Figure公司的“Project Go Big”计划声称通过人类第一视角视频训练机器人,特斯拉也转向“纯视觉方案”,用多摄像头记录人类动作。但作者认为,仅靠视觉数据无法实现灵巧性。
端到端学习在语音、图像和文本领域的成功,依赖于特定领域的前端数据预处理,这些预处理技术最初为人类通信需求开发。语音转文字使用滤波、分帧和频段划分;图像标注使用卷积神经网络模拟人类视觉结构;大型语言模型使用令牌和嵌入处理文本。然而,触觉领域尚无类似技术积累,人类尚未发明触觉信号的存储和回放方法。
语音转文字技术通过采样、滤波、分帧和频段转换等预处理,将语音信号转换为适合学习的输入,这些步骤模拟了人类听觉系统的特性。
深度学习图像标注将像素数据组织为空间阵列,并使用卷积神经网络实现平移不变性,灵感来自福岛邦彦对大脑视觉皮层的研究。
大型语言模型通过令牌化和嵌入将文本转换为高维向量,这些预处理步骤融入了人类语言结构知识。
这三个领域的成功都依赖于精心设计的前端工程,从原始信号中提取有效数据。触觉领域缺乏类似技术,因此仅凭视觉数据训练灵巧性很可能失败。
作者的核心论点是:成功的学习方法需要正确的前端工程和数据收集。当前人形机器人灵巧性研究未做到这一点,尤其是忽略了触觉的关键作用。
人类手部拥有约1.7万个低阈值机械感受器,指尖密度最高。触觉涉及多种神经元类型,如默克尔小体、迈斯纳小体、帕西尼小体和鲁菲尼小体,能感知按压、滑动、振动和拉伸。肌肉中的肌梭和高尔基腱器官提供力感知。实验显示,指尖麻醉后,人类完成简单任务(如取火柴)的时间延长四倍,证明触觉对灵巧性至关重要。
仅收集视觉数据不正确。麻省理工学院的研究者开发了一种数据收集系统,将机器人手部触觉传感器数据反馈给人类操作者,关联触觉与动作,这超越了纯视觉方法。
当前强化学习框架直接映射状态到动作,但人类灵巧性涉及任务规划调整。需要研究如何学习规划及触觉如何调整规划,这仍需大量工作。
人形机器人需与人类共享空间,但当前与人类等大的双足行走机器人并不安全。人类行走依赖弹性弹簧式系统和能量回收,而机器人使用大功率电机和ZMP算法维持平衡,结构刚性高。摔倒时,腿部携带大量动能,可能重伤附近人类。物理缩放定律显示,尺寸放大后能量需求呈立方增长,潜在伤害更大。因此,全尺寸行走机器人需距离人类3米以上,除非开发出更安全的行走方式。
技术词汇含义会变化。未来,“人形机器人”可能指代各种形态:脚部被轮子取代,手臂数量可变,配备非被动传感器。专用机器人将大量出现,都被称为“人形机器人”。当前投入巨资研发的机器人可能被淘汰,未来15年,人形机器人将演变为多样化形态。
作者:罗德尼·布鲁克斯,著名机器人专家,iRobot公司联合创始人,前麻省理工学院教授。
本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115117.html