当前位置：首页 > 科技资讯 > 正文

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战

主机测评网
科技资讯
2026-03-07
568

2026年，人形机器人即将迈入规模化量产的关键元年。最引人瞩目的信号来自特斯拉，其新一代“金色擎天柱”Optimus Gen 3预计在2026年第一季度首次亮相，并计划在年底前建成产能高达100万台的生产线。马斯克曾多次强调，特斯拉未来的核心价值约80%将来自于人形机器人，而非汽车业务。而“擎天柱”实现突破的关键，恰恰在于它的“手与前臂”的精密设计。

灵巧手，从驱动方案上可划分为三大主流技术路径，每一派都有其典型代表：

【连杆方案】充分展现了机械结构设计的精妙，但往往以低自由度为代价，不过也有像韩国ILDA这样实现高自由度设计的例外。

【绳驱方案】的优势在于轻量化、可实现高自由度以及稳定的力量输出。特斯拉的Optimus和在硅谷101 Alignment科技大会上表演开可乐罐的TetherIA灵巧手，都是绳驱方案中“单向拉绳”的代表；“双向拉绳”的代表则包括被誉为“灵巧手皇冠明珠”的Shadow Robot和ORCA Hand。然而，这类方案也面临走线布局、材料蠕变、装配工艺复杂等挑战。

【直驱方案】的优点是便于实现精细控制。在行业展会上，Sharpa机器人凭借其电机直驱灵巧手惊艳全场，它能一张一张地发扑克牌，还能拿起相机按下快门。但劣势在于抗冲击能力较弱，重量也相对较大。

本期《硅谷101》，泓君邀请了灵巧手模型算法专家和硬件专家——来自亚马逊及前Meta机器人研究科学家齐浩之，TetherIA联合创始人陶一伟，共同探讨灵巧手的现状、不同技术路线的特点，以及它在数据和算法层面面临的挑战。

嘉宾们认为，对于灵巧手头部公司而言，短期内针对单项任务打造一个成功的Demo并不难，真正的突破在于实现通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作，才意味着灵巧手迎来了类似ChatGPT那样的泛化突破阶段。

01机器人灵巧手的能力与挑战

泓君：可能听众最困惑的是，在很多Demo里，大家看到机器人可以去拿吸尘器、倒垃圾、烧水，甚至把盘子放进洗碗机。我记得特斯拉有一年的发布会，擎天柱现场给大家倒酒，看起来这只手已经非常智能了。所以可不可以概括一下，现在机器人的手能完成哪些场景？它发展到了什么程度？

齐浩之：好的，我认为，在遥操作情况下，如果手部不需要执行很精细的动作，那问题相对简单，比如擎天柱倒酒，它只是把手放到出酒把手上往下压，这在控制上并不复杂。

与此相对的是，如果我们想让机器人使用家庭中的各种工具，比如螺丝刀、剪刀等，这时就需要手指进行更精细灵巧的操作，难度就会显著增加。而且要让机器人适应千家万户的不同工具，难度会呈指数级上升。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第1张

“擎天柱”（Optimus）展示倒酒图片来源：X

泓君：你刚刚提到了一个词是“精细运动”，还有一个我理解就是讲它的“泛化能力”，也就是在不同场景中的适应性，这两块确实还需要加强。

陶一伟：我稍微补充一点，刚才齐老师可能是从系统层面切入，我更多从硬件角度来谈。一是要把现有硬件方案做得更可靠，让机器人能在真实环境中长时间稳定运行，与自然物体交互而不易损坏，这一点目前还没有完全实现。

而且硬件本身仍需继续迭代，比如增加自由度和触觉传感。随着系统复杂性增加，可靠性又面临更大挑战，这也是硬件端需要持续努力的方向。

泓君：我给听众一个更形象的例子。今年我们的年会上，Evan现场用机器人表演开可乐。其实在彩排时，它并不稳定。比如当时我也想去试，但随意放了一个角度，这时可能需要机器人旋转一下才能打开可乐。旋转这个动作，对机器人来说很难吗？

陶一伟：没错，这是一个很好的问题。首先，开可乐看似只需要一双手加一个指甲，但真正放到双臂机器人系统上，挑战非常大。我们也只是简单演示了一下，未来还有很多工作要做，如何让整个过程完全自动化，并保持高成功率，还有很长的路要走。

可乐的对准问题，精度是一方面，还要感知可乐的状态。人可以用任意姿态抓起可乐罐，单手调整角度达到最佳状态，再让另一只手以完美角度拉开拉环。这要求机器人具备手的硬件设计、控制等多方面能力。

泓君：现在世界上有其他公司，比如自由度更高的产品，能做到很好地旋转可乐并打开吗？

陶一伟：我觉得一些头部公司如果针对这个任务优化硬件，投入精力，也能做出类似Demo。但目前要实现完全自主操作，似乎还没有哪家能做到。这个可能需要齐老师补充观点。

泓君：对，齐老师还有论文是关于用视觉和触觉做手内旋转的，应该是这方面的专家。

齐浩之：我的看法是，现在各家有不同的宣传策略和发展侧重点。比如像陶总这样的硬件厂商，可能目标是为了证明硬件好用，展示炫酷Demo是很自然的。

而另一些专注于灵巧手算法但不做硬件的公司，可能更倾向于展示泛化性能力。

正如陶总所说，如果只优化一个视频，一些头部硬件厂商或算法研究院是可以做到的。但从长远看，我们更应该关注的是哪种灵巧手构型能适应最多类型的任务，且对算法接口友好。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第2张

泓君：所以现在，浩之，根据你的研究，你觉得已经有公司能做到随意摆放可乐罐（不固定瓶口方向）就能打开吗？

齐浩之：我认为现在还没有这样的公司。如果一家公司今天想完成这个任务，可能需要花几个月时间，投入大量资源。但由于公司路线考量，他们可能不会去做这件事，而是更倾向于改进算法，以便未来能更快地实现类似任务。

泓君：就是说他们不会针对单一任务做优化，而是希望朝着适应尽可能多任务的方向发展，更看重泛化性。

齐浩之：是的。

泓君：明白了。如果按这个逻辑，我记得Figure AI曾放出视频，展示机器人能把盘子放进洗碗机。这个视频是经过多次失败挑选的成功案例，还是像你说的，可能只是遥操展示，并不代表机器人真正拥有这种能力？

齐浩之：这里面没有确切信息。但现有的算法确实可以在固定场景下比较容易地拍出这种视频，比如任务成功率有80%-90%，拍一个自主完成的视频难度并不高。但要让人形机器人真正进入千家万户，需要的是在每个场景下都能以100%的成功率完成任务。比如放盘子，90%可能不够，因为十个盘子碎一个，用户就不想用了。所以需要改进的是成功率和泛化性问题。

泓君：所以现在灵巧手问题的焦点也在于泛化性。

陶一伟：对，我这里补充一下，每个任务还需要细分难度。刚才您提到装洗碗碟，这个任务主要是拿起碗碟、打开门、放进架子，相对简单，和开可乐的难度不在一个数量级。

因为开可乐需要一只手拿起罐子调整方向，另一只手对准拉环，以合适角度和力拉开，同时还要防止捏爆易拉罐。从整体控制来说，这比收纳碗碟难得多。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第3张

泓君：那么综合来看，灵巧手的瓶颈在哪里？是整个机器人行业共性问题，比如模型、泛化性，还是灵巧手自身独有的难题？

陶一伟：灵巧手不能只看作一个硬件模块，它的价值必须配上至少一个双臂系统，才能构成最小工作单元。但要真正泛化执行任务，还需要移动底盘、移动平台。有了移动平台，轮式是否足够？复杂路面可能需要全人形。所以灵巧手价值的实现，远不止一个硬件模块能解决。

齐浩之：难点确实遍布整个机器人系统。经常有人问我灵巧手最难的是什么？我认为硬件和软件都还有很大提升空间。

从软件层面，一些成熟的机械臂或轮式机器人算法，直接应用到灵巧手这类复杂系统时，会出现预料之外的问题。比如灵巧手有多个手指和关节，每个关节都会与环境交互，如何保证这些交互有利？用夹爪只需考虑两个接触点，但用十指就有十个接触点，需要协调，计算复杂度大增。

从硬件层面，我2021-2022年开始研究时，可用的灵巧手选择很少。近一两年，国内外厂商进步显著，瓶颈在减少。但我预测还需要几轮迭代，才能形成像宇树机器人那样逐渐收敛的构型。

泓君：现在的灵巧手，市面上能买到的形状、硬件各不相同，软件也需要根据硬件调配。

齐浩之：嗯，大多像人手，但技术路线各异，比如陶总公司是绳驱，有些公司把电机放在手指上直驱。

02 盘点灵巧手硬件三大技术路径

泓君：说到技术路径，业界流行的有连杆驱动、绳驱（分单向和双向）、电机直驱。能否简单介绍各自优劣势？目前主流方向是否收敛？

陶一伟：我先从硬件本身谈，然后请齐老师从使用者角度补充。

首先连杆驱动，最早用于传统假肢手，通过底部驱动器（直线推杆、电缸或蜗轮蜗杆）实现手指弯曲。

这种属于低自由度灵巧手（通常六自由度），更像手的形状，但手指运动轨迹相对固定，指尖沿一维轨迹运动。大拇指侧摆后直接对向食指或中指，轨迹固定。因此与夹爪相比，特点不突出。

泓君：低自由度灵巧手，六个自由度，差不多就是五个手指合拢，还有一个自由度在哪？

陶一伟：是大拇指的侧面摆动。

泓君：就是大拇指有两个自由度，其他手指各一个。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第4张

由韩国阿犹大学的智能机器人研究实验室（IRLAB）设计并开源的ILDA灵巧手图片来源：Iir LAB AJOU

陶一伟：没错。连杆手还有高自由度路线，如韩国ILDA论文，通过复杂连杆系统，每个手指根部设计三个主动直线驱动器，实现三自由度。但问题在于体积较大，刚性连接缺少柔性，不仅抓握不柔顺，碰撞时也易损坏。

泓君：这是连杆驱动的优劣势。

陶一伟：然后谈直驱方案。直驱灵巧手是近一两年出现的，得益于电机驱动器小型化，使直驱成为可能。

优点是自由度可做得很高，每个关节排布驱动器，控制相对容易。缺点是贵，但成本有望下降。另外，电机微小化后减速比仍较高，传动透明性差，齿轮精密，实际应用中寿命和抗冲击能力可能是问题。而且所有零件需高强度金属，导致重量难以下降，普遍接近一公斤或以上，这对机器人末端是较大负载。

泓君：一公斤的手很重，对平衡设计有挑战。

陶一伟：对，还有可靠性、易维护性等问题，需要进一步发展。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第5张

泓君：所以直驱算是业界中灵活度较高的方案，能完成更精细复杂的动作。之前有人推荐Sharpa这家公司，他们用的就是电机直驱。

陶一伟：没错，他们做得非常惊艳，产品完成度高，集成和工业设计出色，每个关节独立电机，灵活性极强。

泓君：它能做到哪些其他灵巧手做不到的事？

齐浩之：从展示视频看，他们能用双臂灵巧手系统发扑克牌，这很难，因为牌间间隙小，需要精确控制力才能一张张发出。如果力不准，容易多发或打散牌堆。所以他们的视频相当惊艳。

泓君：嗯，一张张发牌对手部精细度要求很高。这是直驱方案。还有一种Evan熟悉的绳驱方案。

陶一伟：对，绳驱目前市面主流分双向拉绳和单向拉绳。双向拉绳代表是Shadow Hand，被誉为灵巧手皇冠明珠，15万美金，26个自由度。它在每个关节用两根绳连到旋转电机两个方向，正反转控制弯曲和伸直。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第6张

类似还有苏黎世理工开源的ORCA Hand。双向拉绳的难点在于张紧问题：电机轴控制远端关节时，两侧绳长需长期不变，但材料蠕变会导致松动，降低精度和控制性。

ORCA Hand设计了棘轮机构便于张紧，但仍需定期调整。另外，高自由度绳驱的走线设计对空间利用率低，不像齿轮可紧密排布，要考虑绳的动态变化。因此多数高自由度绳驱手无法将驱动器全部置于手掌内，需延伸到手腕以下。如Shadow Hand、ORCA Hand和特斯拉。国内源升智能尝试将驱动器整合在手掌内，但手掌体积较大。

泓君：特斯拉用哪种方案？

陶一伟：特斯拉是单向拉绳。单向拉绳对腱绳材料蠕变不敏感，可通过算法克服。但缺点是伸直运动无主动力，靠弹簧实现。弹簧力较小，抓握时需对抗弹簧力，若弹簧力强会浪费抓握力。不过在某些精细操作中，反向推力也有用，但现阶段主要解决抓握问题。

泓君：所以暂时不考虑张开动作？

陶一伟：对，张开用得不多。反向推力比如闭眼在包里掏东西需拨开其他物品，这需要整手触觉，但很难，目前大家尚未重点考虑。

泓君：业界现在向哪几个方向收敛？

陶一伟：从硬件看，主要朝直驱和单向拉绳收敛，包括特斯拉和我们。直驱也很惊艳，连杆高自由度方案公司较少。

泓君：Figure AI和Physical Intelligence用什么方案？

陶一伟：Figure AI从专利看可能是六自由度连杆或其他方案。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第7张

泓君：浩之有什么补充？作为使用者谈谈体验。

齐浩之：我用过连杆和直驱，没用过绳驱。

现在“机器人+AI”主流有两种方式：一是遥操作采数据训练神经网络，如Aloha、Physical Intelligence；二是在物理模拟器用强化学习训练网络后迁移到真实世界，如四足、双足机器人跳舞走路。

灵巧手各方案都有缺陷。从仿真训练迁移的角度，我们选择灵巧手时会考虑其仿真难度。直驱手相比连杆更容易仿真，所以在需要高自由度灵巧操作时，我们倾向选直驱。过去直驱电机大，近年才变小，如Sharpa。

当时觉得Sharpa惊艳，因为在此之前，与手大小相近的机器人手多为连杆或绳驱，对我们技术路线不适用。Sharpa既有类人大小，又是电机直驱，很适合我们研究。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第8张

泓君：很有意思。如果用仿真研究灵巧手，首先手的外形、自由度和关节数要接近人手。Sharpa的手约5万美元一只，Shadow Hand 15万美元。谁在买这么贵的灵巧手？科研机构和大公司研发部门吗？

齐浩之：Sharpa应该是5万一只。

泓君：5万一只，10万一双手，能按对卖吗？

齐浩之：应该可以。我的理解是，这些厂商并非靠卖硬件盈利，毕竟未到量产阶段。他们更看重通过硬件迭代优化构型，价格可能有筛选作用，只面向真正有强烈需求的用户，如大厂或政府资助的高校。比如Shadow Hand的主要客户是17-18年的OpenAI，用于魔方研究。

泓君：有意思。他们不是靠卖硬件赚钱，而是想跑通路子，吸引开发者共建生态。

齐浩之：嗯。Evan可从硬件从业者角度谈谈。

陶一伟：从创业者角度，我们商业模式不同。他们走高端学术路线，筛选精品客户。而我们思路是做一款稳定可靠、价格更低、便于应用端客户部署的产品。自由度、性能和触觉可能没那么高级，但能帮助落地，逐步建立生态，获取客户反馈。价格便宜的灵巧手不代表没技术含量和商业价值。

03 特斯拉灵巧手研发故事

泓君：Evan，你进特斯拉是两年多前，2023年7月，正好参与Optimus手的研发。能不能介绍一下特斯拉灵巧手的演进过程？

陶一伟：没问题。我刚加入时，整个Optimus机械硬件团队约十几人，我和另一人负责手项目。当时那一代手是蜗轮蜗杆绳驱方案，六个主动自由度，十一个全关节，属于欠驱动灵巧手。

内部已迭代到第三代。我加入时主要任务是升级灵巧手的关节编码器和增加触觉。

虽然只是电路升级，但沿用第一代构型导致装配困难。我入职第一周就带生产团队组装刚设计好的第三代手，过程痛苦，从早到晚可能装不出一只。对非机械背景的人可能难以理解，每个工序都要花一两个小时。这反映了硬件构型设计不完善。

泓君：特斯拉全部自己设计研发，你正好赶上组装。

陶一伟：没错。马斯克对第三代手不太满意，外形像实验室样机，产能也差，一天只能组装一两台。

泓君：他对外形不满意，还是对技术方案？

陶一伟：他对外形和产能都不满意。外形不够好，产能太低。

泓君：所以他质疑整个设计环节，从外形到方案的落地性。

陶一伟：是的。所以我进去后第一个任务就是带领项目重新设计手，与工业设计紧密合作，从里到外重构结构，加入许多独创细节。这是我们内部叫3.1代的手，对外就是目前大规模装机一直用的那款。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第9张

泓君：改进后，装一只手要多久？

陶一伟：离开时，我记得一个星期要一百多台，由技术工人现场组装，有独立产线。我们工程师先自己走一遍流程，再交给工人。

泓君：马斯克对灵巧手提过哪些想法？

陶一伟：马斯克坚信第一性原理，他的指导常从仿生角度出发。

泓君：仿生方面，特斯拉内部做过人体分析，研究人手感知力的方式？

陶一伟：没错。我们看了很多生物解剖论文，学习肌腱发力方式。甚至有个伙伴的妈妈是手外科医生，我们有机会现场观察真实人手结构，很有趣。

泓君：从生物学论文中，你获得的最大启发是什么？特斯拉从人体学到什么？

陶一伟：特斯拉从上一代到未来新一代手，最大变化是把驱动器从手掌内移到小臂，这借鉴了人手设计——手指弯曲的驱动肌肉位于小臂。

泓君：不是在手掌内，是在小臂。

陶一伟：其实都有。小臂控制大的抓握力，手掌内肌肉控制精细操作。这是我们方案与特斯拉的一些差异点。

齐浩之：我好奇装配绳驱灵巧手耗时很长，会不会导致产能与直驱手有较大差异？

陶一伟：是的。直驱手更像传统机械结构，可通过成熟工艺（如拧螺丝、焊接）装配，保证精度和效率。但绳驱方案在腱绳整合方面经验少，需要行业推进，包括腱绳两端固定和连接，兼顾生产速度和精度。不过这是工程问题，最终能克服。

04 揭秘灵巧手“数据金字塔”

泓君：我们聊了硬件，接下来聊算法层面，浩之这边研究什么？

齐浩之：过去几个月，我主要研究如何从人类视频中学习灵巧操作技能。

目前大家了解较多的是遥操作，操作员戴动作捕捉手套，将动作映射到机器人手上。但这有缺陷：一个操作员只能适配一台机器人，要把数据量推广到语言数据那么多很困难，因为机器人和产能有限。

另一条路是利用现有数据，比如网上大量人类做饭、做家务的视频，让机器人通过观看视频自己学会技能。

泓君：现在表现如何？

齐浩之：还处于研究阶段。如果追求最佳效果，肯定是直接遥操作采集机器人数据最好。但人类视频数据规模庞大，长远看有望取代遥操作。

泓君：有意思。之前1X发布机器人Neo，能进家庭做家务，但背后有人遥操，以出卖隐私为代价。这也是他们收集数据的方式。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第10张

Neo演示广告片图片来源：1X

齐浩之：对，目前还没有公司能把机器人卖给用户完成所需任务。1X类似特斯拉自动驾驶策略，先卖车，用户开车同时采集数据。但人形机器人用户自己无法操作，需要公司操作员远程控制，这涉及隐私和道德问题，需进一步讨论。

泓君：你2021-2022年开始做机器人研究，那时GPT-3已出，但端到端训练机器人和灵巧手还不是主流。当时研究的主要方向是什么？

齐浩之：那时大家主要研究让机器人在有限泛化要求下完成特定任务。因为硬件不多，能做灵巧手科研的课题组有限，大家也没太想做。特斯拉宣布做人形机器人后，行业爆发，大家才开始投入。

近些年，越来越多的人尝试用GPT的研究方式做端到端模型，在简单机器人本体上已有些初步验证，比如Physical Intelligence用大规模数据加遥操作展示了较强能力。但灵巧手更难，因为数据采集比其他机器人难得多。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第11张

泓君：你是说手部数据？

齐浩之：对。即使有操作员不停采集，数据量要达到GPT或Physical Intelligence的等级并非易事。

泓君：之前和Physical Intelligence研究员聊过，他们π0.5好像有1万多个小时的数据，这已是机器人行业最大的真实数据集。

齐浩之：对，肯定有很多公司采集的数据远超1万小时。但问题在于什么数据对训练机器人有用。

泓君：聊聊你的研究，你研究用视觉和触觉做手内旋转或复杂操作。整体上你的工作证明触觉能带来提升。简单解释一下，为什么机器人需要触觉？加了触觉后多了哪些能力？

齐浩之：触觉有几个好处。我曾做过实验：在美国买一些牙医用的麻醉凝胶涂在手上，感觉不到手指，然后尝试操作，虽然也能完成，但很慢，因为需要用眼睛仔细看是否接触到物体。

所以首先，当手指与物体交互时，触觉能提供更精确的信息。比如机器人拿到东西，视觉很难看到是否拿稳，因为手挡住了接触点，这时触觉更有用。

泓君：触觉就是加传感器？

齐浩之：对。另一个重要作用是控制力的大小。比如开可乐，一只手要足够力握住罐子但不能捏爆，另一只手要以精确角度和力拉拉环，否则可能拉断。感知力最好的方式就是触觉传感器。

泓君：触觉传感器不仅能感知接触，还能感知力。力感知怎么实现？

齐浩之：有多种技术方案。比如在指尖放压感传感器，压力使电路产生不同电流，根据电流大小判断压力。还有视触觉传感器，在手指内部加相机，当手指接触时材料形变，相机捕捉形变，反向推断力的方向和大小，再通过神经网络得到触觉信号。

陶一伟：补充一点，除了手指表面触觉传感器，客户还关注驱动器电流反馈的力信息，即驱动器用多大拉力拉动手指。这和人类感知类似，皮肤表面有触觉信号，肌肉收缩也有感知能力。

泓君：有意思。聊了这么多，感觉我们之所以把机器设计得复杂，是因为对自身了解不足。

陶一伟：没错。

齐浩之：Evan补充得好，绳驱路线的优势在于容易实现力控，通过调节拉力大小即可。

泓君：像你这样的研究科学家一天能收集多少遥操的力数据？

齐浩之：取决于任务难度。最简单的抓取放置可以收集很多，只要不累，成功率也高。但像用剪子剪窗花或折纸这种难任务，收集一条都很难。这也是我们算法想解决的问题：对于难采集的数据，能否用算法突破？

泓君：所以现在主流方案是跟着视频学？

齐浩之：有多种探索路径。视频是一条，模拟器是一条，还有用特定设备采集数据再转化，比如Sunday和Generalist。

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战灵巧手技术路径特斯拉Optimus 机器人泛化能力第12张

泓君：这是从数据收集方式谈模型训练。遥操数据量小但质量高，视频数据量大但缺乏力等信息。哪种效果好？业内有无共识？

齐浩之：对于公司，还是多用遥操作，追求绝对效果。视频数据很多人在研究，但尚处研究阶段。特斯拉最近也发布了用人类视频学到的操作视频，但绝对能力仍不如遥操作。之所以研究视频，是因为相信当视频量积累到一定程度，能力可能超越遥操作，但不在当下。

泓君：可能追求不同：精确性需要遥操，泛化性需要视频。我的总结对吗？

齐浩之：对，可以这样理解。不同数据有不同特征，有的数据能快速提升能力但难采集，有的易采集但如何最好利用尚无定论。

我们业界有个金字塔模型：遥操作在塔尖，量少但有用；视频在底座，量大但非最有效提升效果的数据。中间有仿真等。

泓君：记得在一次活动上，与DeepMind、OpenAI科学家讨论，大家对Genie3世界模型看法两极分化：一派认为对机器人帮助不大，一派认为很重要。

齐浩之：从研究角度，新基础模型肯定有帮助，关键是如何利用。说完全没用有失偏颇，但认为只靠训练视频生成模型就能解决机器人也不现实，因为视频生成尚未完全解决物理真实性。

每年视频生成在物理层面有进步，但假设靠视频模型能预测物理世界，那语言模型也应无幻觉，因为它们都学习真实数据规则。但语言模型仍存在幻觉，所以视频模型要学到真正物理规律任重道远。我们不能完全依赖视频模型训练机器人，但可提供初始化或其他信号。

泓君：有意思。你们觉得实现手部灵巧动作（如开可乐）有多难？到了GPT时刻吗？

陶一伟：说不定如果机器人能真正开可乐，是个很好的benchmark，达到GPT时刻，因为它综合考量了灵巧性。

齐浩之：我举个例子，20年前本田ASIMO就能在舞台上跑步、上下楼梯。有人质疑为什么20年后人形机器人还只是那个水平？这涉及多容易达到那个水平。现有算法可以很容易让机器人跑步，然后稍微改改就能跳舞，而20年前让机器人跑步需要顶尖团队迭代数月甚至数年。

所以如果未来有一个算法框架，能用很短时间让机器人开可乐，还能做开门、拧螺丝等多样化任务，那确实是GPT时刻。

泓君：我们离那个时刻还有多远？

齐浩之：预测总被打脸，我觉得可能还有3-5年。

泓君：那比我想象中快很多。

陶一伟：从硬件和产品角度，今年内产品就能满足这样的能力。

泓君：你是说在任何场景下开一罐可乐，机器人能自主旋转、任意摆放并打开？

陶一伟：可以这么说。硬件很快能达到这个基石，但系统上限取决于软件和模型能力释放。

齐浩之：最近两年灵巧手井喷式飞跃，前景光明。一是人形机器人火起来后，硬件厂商增多，能制造复杂硬件；二是简单本体（如轮式、平行夹爪）的科研问题趋同，缺乏新爆点，大家转向探索更复杂系统（灵巧手、人形机器人）的算法迭代。这两点共同促进研究发展。

泓君：好的，非常期待。今天聊得非常精彩，谢谢两位。

性价比服务器免费vps

本文由主机测评网于2026-03-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260329248.html

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战

01机器人灵巧手的能力与挑战

02 盘点灵巧手硬件三大技术路径

03 特斯拉灵巧手研发故事

04 揭秘灵巧手“数据金字塔”

VMware创建新虚拟机教程（保姆级别）——从零开始轻松上手

腾讯AI战略重构：挖角OpenAI核心研究员，All in大模型底座

人形机器人灵巧手技术解析：三大技术路径与迈向GPT时刻的挑战

01机器人灵巧手的能力与挑战

02 盘点灵巧手硬件三大技术路径

03 特斯拉灵巧手研发故事

04 揭秘灵巧手“数据金字塔”

VMware创建新虚拟机教程（保姆级别）——从零开始轻松上手

腾讯AI战略重构：挖角OpenAI核心研究员，All in大模型底座

相关文章