2026年,人形机器人即将迈入规模化量产的关键元年。最引人瞩目的信号来自特斯拉,其新一代“金色擎天柱”Optimus Gen 3预计在2026年第一季度首次亮相,并计划在年底前建成产能高达100万台的生产线。马斯克曾多次强调,特斯拉未来的核心价值约80%将来自于人形机器人,而非汽车业务。而“擎天柱”实现突破的关键,恰恰在于它的“手与前臂”的精密设计。
灵巧手,从驱动方案上可划分为三大主流技术路径,每一派都有其典型代表:
【连杆方案】充分展现了机械结构设计的精妙,但往往以低自由度为代价,不过也有像韩国ILDA这样实现高自由度设计的例外。
【绳驱方案】的优势在于轻量化、可实现高自由度以及稳定的力量输出。特斯拉的Optimus和在硅谷101 Alignment科技大会上表演开可乐罐的TetherIA灵巧手,都是绳驱方案中“单向拉绳”的代表;“双向拉绳”的代表则包括被誉为“灵巧手皇冠明珠”的Shadow Robot和ORCA Hand。然而,这类方案也面临走线布局、材料蠕变、装配工艺复杂等挑战。
【直驱方案】的优点是便于实现精细控制。在行业展会上,Sharpa机器人凭借其电机直驱灵巧手惊艳全场,它能一张一张地发扑克牌,还能拿起相机按下快门。但劣势在于抗冲击能力较弱,重量也相对较大。
本期《硅谷101》,泓君邀请了灵巧手模型算法专家和硬件专家——来自亚马逊及前Meta机器人研究科学家齐浩之,TetherIA联合创始人陶一伟,共同探讨灵巧手的现状、不同技术路线的特点,以及它在数据和算法层面面临的挑战。
嘉宾们认为,对于灵巧手头部公司而言,短期内针对单项任务打造一个成功的Demo并不难,真正的突破在于实现通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作,才意味着灵巧手迎来了类似ChatGPT那样的泛化突破阶段。
泓君:可能听众最困惑的是,在很多Demo里,大家看到机器人可以去拿吸尘器、倒垃圾、烧水,甚至把盘子放进洗碗机。我记得特斯拉有一年的发布会,擎天柱现场给大家倒酒,看起来这只手已经非常智能了。所以可不可以概括一下,现在机器人的手能完成哪些场景?它发展到了什么程度?
齐浩之:好的,我认为,在遥操作情况下,如果手部不需要执行很精细的动作,那问题相对简单,比如擎天柱倒酒,它只是把手放到出酒把手上往下压,这在控制上并不复杂。
与此相对的是,如果我们想让机器人使用家庭中的各种工具,比如螺丝刀、剪刀等,这时就需要手指进行更精细灵巧的操作,难度就会显著增加。而且要让机器人适应千家万户的不同工具,难度会呈指数级上升。
“擎天柱”(Optimus)展示倒酒 图片来源:X
泓君:你刚刚提到了一个词是“精细运动”,还有一个我理解就是讲它的“泛化能力”,也就是在不同场景中的适应性,这两块确实还需要加强。
陶一伟:我稍微补充一点,刚才齐老师可能是从系统层面切入,我更多从硬件角度来谈。一是要把现有硬件方案做得更可靠,让机器人能在真实环境中长时间稳定运行,与自然物体交互而不易损坏,这一点目前还没有完全实现。
而且硬件本身仍需继续迭代,比如增加自由度和触觉传感。随着系统复杂性增加,可靠性又面临更大挑战,这也是硬件端需要持续努力的方向。
泓君:我给听众一个更形象的例子。今年我们的年会上,Evan现场用机器人表演开可乐。其实在彩排时,它并不稳定。比如当时我也想去试,但随意放了一个角度,这时可能需要机器人旋转一下才能打开可乐。旋转这个动作,对机器人来说很难吗?
陶一伟:没错,这是一个很好的问题。首先,开可乐看似只需要一双手加一个指甲,但真正放到双臂机器人系统上,挑战非常大。我们也只是简单演示了一下,未来还有很多工作要做,如何让整个过程完全自动化,并保持高成功率,还有很长的路要走。
可乐的对准问题,精度是一方面,还要感知可乐的状态。人可以用任意姿态抓起可乐罐,单手调整角度达到最佳状态,再让另一只手以完美角度拉开拉环。这要求机器人具备手的硬件设计、控制等多方面能力。
泓君:现在世界上有其他公司,比如自由度更高的产品,能做到很好地旋转可乐并打开吗?
陶一伟:我觉得一些头部公司如果针对这个任务优化硬件,投入精力,也能做出类似Demo。但目前要实现完全自主操作,似乎还没有哪家能做到。这个可能需要齐老师补充观点。
泓君:对,齐老师还有论文是关于用视觉和触觉做手内旋转的,应该是这方面的专家。
齐浩之:我的看法是,现在各家有不同的宣传策略和发展侧重点。比如像陶总这样的硬件厂商,可能目标是为了证明硬件好用,展示炫酷Demo是很自然的。
而另一些专注于灵巧手算法但不做硬件的公司,可能更倾向于展示泛化性能力。
正如陶总所说,如果只优化一个视频,一些头部硬件厂商或算法研究院是可以做到的。但从长远看,我们更应该关注的是哪种灵巧手构型能适应最多类型的任务,且对算法接口友好。
泓君:所以现在,浩之,根据你的研究,你觉得已经有公司能做到随意摆放可乐罐(不固定瓶口方向)就能打开吗?
齐浩之:我认为现在还没有这样的公司。如果一家公司今天想完成这个任务,可能需要花几个月时间,投入大量资源。但由于公司路线考量,他们可能不会去做这件事,而是更倾向于改进算法,以便未来能更快地实现类似任务。
泓君:就是说他们不会针对单一任务做优化,而是希望朝着适应尽可能多任务的方向发展,更看重泛化性。
齐浩之:是的。
泓君:明白了。如果按这个逻辑,我记得Figure AI曾放出视频,展示机器人能把盘子放进洗碗机。这个视频是经过多次失败挑选的成功案例,还是像你说的,可能只是遥操展示,并不代表机器人真正拥有这种能力?
齐浩之:这里面没有确切信息。但现有的算法确实可以在固定场景下比较容易地拍出这种视频,比如任务成功率有80%-90%,拍一个自主完成的视频难度并不高。但要让人形机器人真正进入千家万户,需要的是在每个场景下都能以100%的成功率完成任务。比如放盘子,90%可能不够,因为十个盘子碎一个,用户就不想用了。所以需要改进的是成功率和泛化性问题。
泓君:所以现在灵巧手问题的焦点也在于泛化性。
陶一伟:对,我这里补充一下,每个任务还需要细分难度。刚才您提到装洗碗碟,这个任务主要是拿起碗碟、打开门、放进架子,相对简单,和开可乐的难度不在一个数量级。
因为开可乐需要一只手拿起罐子调整方向,另一只手对准拉环,以合适角度和力拉开,同时还要防止捏爆易拉罐。从整体控制来说,这比收纳碗碟难得多。
泓君:那么综合来看,灵巧手的瓶颈在哪里?是整个机器人行业共性问题,比如模型、泛化性,还是灵巧手自身独有的难题?
陶一伟:灵巧手不能只看作一个硬件模块,它的价值必须配上至少一个双臂系统,才能构成最小工作单元。但要真正泛化执行任务,还需要移动底盘、移动平台。有了移动平台,轮式是否足够?复杂路面可能需要全人形。所以灵巧手价值的实现,远不止一个硬件模块能解决。
齐浩之:难点确实遍布整个机器人系统。经常有人问我灵巧手最难的是什么?我认为硬件和软件都还有很大提升空间。
从软件层面,一些成熟的机械臂或轮式机器人算法,直接应用到灵巧手这类复杂系统时,会出现预料之外的问题。比如灵巧手有多个手指和关节,每个关节都会与环境交互,如何保证这些交互有利?用夹爪只需考虑两个接触点,但用十指就有十个接触点,需要协调,计算复杂度大增。
从硬件层面,我2021-2022年开始研究时,可用的灵巧手选择很少。近一两年,国内外厂商进步显著,瓶颈在减少。但我预测还需要几轮迭代,才能形成像宇树机器人那样逐渐收敛的构型。
泓君:现在的灵巧手,市面上能买到的形状、硬件各不相同,软件也需要根据硬件调配。
齐浩之:嗯,大多像人手,但技术路线各异,比如陶总公司是绳驱,有些公司把电机放在手指上直驱。
泓君:说到技术路径,业界流行的有连杆驱动、绳驱(分单向和双向)、电机直驱。能否简单介绍各自优劣势?目前主流方向是否收敛?
陶一伟:我先从硬件本身谈,然后请齐老师从使用者角度补充。
首先连杆驱动,最早用于传统假肢手,通过底部驱动器(直线推杆、电缸或蜗轮蜗杆)实现手指弯曲。
这种属于低自由度灵巧手(通常六自由度),更像手的形状,但手指运动轨迹相对固定,指尖沿一维轨迹运动。大拇指侧摆后直接对向食指或中指,轨迹固定。因此与夹爪相比,特点不突出。
泓君:低自由度灵巧手,六个自由度,差不多就是五个手指合拢,还有一个自由度在哪?
陶一伟:是大拇指的侧面摆动。
泓君:就是大拇指有两个自由度,其他手指各一个。
由韩国阿犹大学的智能机器人研究实验室(IRLAB)设计并开源的ILDA灵巧手图片来源:Iir LAB AJOU
陶一伟:没错。连杆手还有高自由度路线,如韩国ILDA论文,通过复杂连杆系统,每个手指根部设计三个主动直线驱动器,实现三自由度。但问题在于体积较大,刚性连接缺少柔性,不仅抓握不柔顺,碰撞时也易损坏。
泓君:这是连杆驱动的优劣势。
陶一伟:然后谈直驱方案。直驱灵巧手是近一两年出现的,得益于电机驱动器小型化,使直驱成为可能。
优点是自由度可做得很高,每个关节排布驱动器,控制相对容易。缺点是贵,但成本有望下降。另外,电机微小化后减速比仍较高,传动透明性差,齿轮精密,实际应用中寿命和抗冲击能力可能是问题。而且所有零件需高强度金属,导致重量难以下降,普遍接近一公斤或以上,这对机器人末端是较大负载。
泓君:一公斤的手很重,对平衡设计有挑战。
陶一伟:对,还有可靠性、易维护性等问题,需要进一步发展。
泓君:所以直驱算是业界中灵活度较高的方案,能完成更精细复杂的动作。之前有人推荐Sharpa这家公司,他们用的就是电机直驱。
陶一伟:没错,他们做得非常惊艳,产品完成度高,集成和工业设计出色,每个关节独立电机,灵活性极强。
泓君:它能做到哪些其他灵巧手做不到的事?
齐浩之:从展示视频看,他们能用双臂灵巧手系统发扑克牌,这很难,因为牌间间隙小,需要精确控制力才能一张张发出。如果力不准,容易多发或打散牌堆。所以他们的视频相当惊艳。
泓君:嗯,一张张发牌对手部精细度要求很高。这是直驱方案。还有一种Evan熟悉的绳驱方案。
陶一伟:对,绳驱目前市面主流分双向拉绳和单向拉绳。双向拉绳代表是Shadow Hand,被誉为灵巧手皇冠明珠,15万美金,26个自由度。它在每个关节用两根绳连到旋转电机两个方向,正反转控制弯曲和伸直。
类似还有苏黎世理工开源的ORCA Hand。双向拉绳的难点在于张紧问题:电机轴控制远端关节时,两侧绳长需长期不变,但材料蠕变会导致松动,降低精度和控制性。
ORCA Hand设计了棘轮机构便于张紧,但仍需定期调整。另外,高自由度绳驱的走线设计对空间利用率低,不像齿轮可紧密排布,要考虑绳的动态变化。因此多数高自由度绳驱手无法将驱动器全部置于手掌内,需延伸到手腕以下。如Shadow Hand、ORCA Hand和特斯拉。国内源升智能尝试将驱动器整合在手掌内,但手掌体积较大。
泓君:特斯拉用哪种方案?
陶一伟:特斯拉是单向拉绳。单向拉绳对腱绳材料蠕变不敏感,可通过算法克服。但缺点是伸直运动无主动力,靠弹簧实现。弹簧力较小,抓握时需对抗弹簧力,若弹簧力强会浪费抓握力。不过在某些精细操作中,反向推力也有用,但现阶段主要解决抓握问题。
泓君:所以暂时不考虑张开动作?
陶一伟:对,张开用得不多。反向推力比如闭眼在包里掏东西需拨开其他物品,这需要整手触觉,但很难,目前大家尚未重点考虑。
泓君:业界现在向哪几个方向收敛?
陶一伟:从硬件看,主要朝直驱和单向拉绳收敛,包括特斯拉和我们。直驱也很惊艳,连杆高自由度方案公司较少。
泓君:Figure AI和Physical Intelligence用什么方案?
陶一伟:Figure AI从专利看可能是六自由度连杆或其他方案。
泓君:浩之有什么补充?作为使用者谈谈体验。
齐浩之:我用过连杆和直驱,没用过绳驱。
现在“机器人+AI”主流有两种方式:一是遥操作采数据训练神经网络,如Aloha、Physical Intelligence;二是在物理模拟器用强化学习训练网络后迁移到真实世界,如四足、双足机器人跳舞走路。
灵巧手各方案都有缺陷。从仿真训练迁移的角度,我们选择灵巧手时会考虑其仿真难度。直驱手相比连杆更容易仿真,所以在需要高自由度灵巧操作时,我们倾向选直驱。过去直驱电机大,近年才变小,如Sharpa。
当时觉得Sharpa惊艳,因为在此之前,与手大小相近的机器人手多为连杆或绳驱,对我们技术路线不适用。Sharpa既有类人大小,又是电机直驱,很适合我们研究。
泓君:很有意思。如果用仿真研究灵巧手,首先手的外形、自由度和关节数要接近人手。Sharpa的手约5万美元一只,Shadow Hand 15万美元。谁在买这么贵的灵巧手?科研机构和大公司研发部门吗?
齐浩之:Sharpa应该是5万一只。
泓君:5万一只,10万一双手,能按对卖吗?
齐浩之:应该可以。我的理解是,这些厂商并非靠卖硬件盈利,毕竟未到量产阶段。他们更看重通过硬件迭代优化构型,价格可能有筛选作用,只面向真正有强烈需求的用户,如大厂或政府资助的高校。比如Shadow Hand的主要客户是17-18年的OpenAI,用于魔方研究。
泓君:有意思。他们不是靠卖硬件赚钱,而是想跑通路子,吸引开发者共建生态。
齐浩之:嗯。Evan可从硬件从业者角度谈谈。
陶一伟:从创业者角度,我们商业模式不同。他们走高端学术路线,筛选精品客户。而我们思路是做一款稳定可靠、价格更低、便于应用端客户部署的产品。自由度、性能和触觉可能没那么高级,但能帮助落地,逐步建立生态,获取客户反馈。价格便宜的灵巧手不代表没技术含量和商业价值。
泓君:Evan,你进特斯拉是两年多前,2023年7月,正好参与Optimus手的研发。能不能介绍一下特斯拉灵巧手的演进过程?
陶一伟:没问题。我刚加入时,整个Optimus机械硬件团队约十几人,我和另一人负责手项目。当时那一代手是蜗轮蜗杆绳驱方案,六个主动自由度,十一个全关节,属于欠驱动灵巧手。
内部已迭代到第三代。我加入时主要任务是升级灵巧手的关节编码器和增加触觉。
虽然只是电路升级,但沿用第一代构型导致装配困难。我入职第一周就带生产团队组装刚设计好的第三代手,过程痛苦,从早到晚可能装不出一只。对非机械背景的人可能难以理解,每个工序都要花一两个小时。这反映了硬件构型设计不完善。
泓君:特斯拉全部自己设计研发,你正好赶上组装。
陶一伟:没错。马斯克对第三代手不太满意,外形像实验室样机,产能也差,一天只能组装一两台。
泓君:他对外形不满意,还是对技术方案?
陶一伟:他对外形和产能都不满意。外形不够好,产能太低。
泓君:所以他质疑整个设计环节,从外形到方案的落地性。
陶一伟:是的。所以我进去后第一个任务就是带领项目重新设计手,与工业设计紧密合作,从里到外重构结构,加入许多独创细节。这是我们内部叫3.1代的手,对外就是目前大规模装机一直用的那款。
泓君:改进后,装一只手要多久?
陶一伟:离开时,我记得一个星期要一百多台,由技术工人现场组装,有独立产线。我们工程师先自己走一遍流程,再交给工人。
泓君:马斯克对灵巧手提过哪些想法?
陶一伟:马斯克坚信第一性原理,他的指导常从仿生角度出发。
泓君:仿生方面,特斯拉内部做过人体分析,研究人手感知力的方式?
陶一伟:没错。我们看了很多生物解剖论文,学习肌腱发力方式。甚至有个伙伴的妈妈是手外科医生,我们有机会现场观察真实人手结构,很有趣。
泓君:从生物学论文中,你获得的最大启发是什么?特斯拉从人体学到什么?
陶一伟:特斯拉从上一代到未来新一代手,最大变化是把驱动器从手掌内移到小臂,这借鉴了人手设计——手指弯曲的驱动肌肉位于小臂。
泓君:不是在手掌内,是在小臂。
陶一伟:其实都有。小臂控制大的抓握力,手掌内肌肉控制精细操作。这是我们方案与特斯拉的一些差异点。
齐浩之:我好奇装配绳驱灵巧手耗时很长,会不会导致产能与直驱手有较大差异?
陶一伟:是的。直驱手更像传统机械结构,可通过成熟工艺(如拧螺丝、焊接)装配,保证精度和效率。但绳驱方案在腱绳整合方面经验少,需要行业推进,包括腱绳两端固定和连接,兼顾生产速度和精度。不过这是工程问题,最终能克服。
泓君:我们聊了硬件,接下来聊算法层面,浩之这边研究什么?
齐浩之:过去几个月,我主要研究如何从人类视频中学习灵巧操作技能。
目前大家了解较多的是遥操作,操作员戴动作捕捉手套,将动作映射到机器人手上。但这有缺陷:一个操作员只能适配一台机器人,要把数据量推广到语言数据那么多很困难,因为机器人和产能有限。
另一条路是利用现有数据,比如网上大量人类做饭、做家务的视频,让机器人通过观看视频自己学会技能。
泓君:现在表现如何?
齐浩之:还处于研究阶段。如果追求最佳效果,肯定是直接遥操作采集机器人数据最好。但人类视频数据规模庞大,长远看有望取代遥操作。
泓君:有意思。之前1X发布机器人Neo,能进家庭做家务,但背后有人遥操,以出卖隐私为代价。这也是他们收集数据的方式。
Neo演示广告片 图片来源:1X
齐浩之:对,目前还没有公司能把机器人卖给用户完成所需任务。1X类似特斯拉自动驾驶策略,先卖车,用户开车同时采集数据。但人形机器人用户自己无法操作,需要公司操作员远程控制,这涉及隐私和道德问题,需进一步讨论。
泓君:你2021-2022年开始做机器人研究,那时GPT-3已出,但端到端训练机器人和灵巧手还不是主流。当时研究的主要方向是什么?
齐浩之:那时大家主要研究让机器人在有限泛化要求下完成特定任务。因为硬件不多,能做灵巧手科研的课题组有限,大家也没太想做。特斯拉宣布做人形机器人后,行业爆发,大家才开始投入。
近些年,越来越多的人尝试用GPT的研究方式做端到端模型,在简单机器人本体上已有些初步验证,比如Physical Intelligence用大规模数据加遥操作展示了较强能力。但灵巧手更难,因为数据采集比其他机器人难得多。
泓君:你是说手部数据?
齐浩之:对。即使有操作员不停采集,数据量要达到GPT或Physical Intelligence的等级并非易事。
泓君:之前和Physical Intelligence研究员聊过,他们π0.5好像有1万多个小时的数据,这已是机器人行业最大的真实数据集。
齐浩之:对,肯定有很多公司采集的数据远超1万小时。但问题在于什么数据对训练机器人有用。
泓君:聊聊你的研究,你研究用视觉和触觉做手内旋转或复杂操作。整体上你的工作证明触觉能带来提升。简单解释一下,为什么机器人需要触觉?加了触觉后多了哪些能力?
齐浩之:触觉有几个好处。我曾做过实验:在美国买一些牙医用的麻醉凝胶涂在手上,感觉不到手指,然后尝试操作,虽然也能完成,但很慢,因为需要用眼睛仔细看是否接触到物体。
所以首先,当手指与物体交互时,触觉能提供更精确的信息。比如机器人拿到东西,视觉很难看到是否拿稳,因为手挡住了接触点,这时触觉更有用。
泓君:触觉就是加传感器?
齐浩之:对。另一个重要作用是控制力的大小。比如开可乐,一只手要足够力握住罐子但不能捏爆,另一只手要以精确角度和力拉拉环,否则可能拉断。感知力最好的方式就是触觉传感器。
泓君:触觉传感器不仅能感知接触,还能感知力。力感知怎么实现?
齐浩之:有多种技术方案。比如在指尖放压感传感器,压力使电路产生不同电流,根据电流大小判断压力。还有视触觉传感器,在手指内部加相机,当手指接触时材料形变,相机捕捉形变,反向推断力的方向和大小,再通过神经网络得到触觉信号。
陶一伟:补充一点,除了手指表面触觉传感器,客户还关注驱动器电流反馈的力信息,即驱动器用多大拉力拉动手指。这和人类感知类似,皮肤表面有触觉信号,肌肉收缩也有感知能力。
泓君:有意思。聊了这么多,感觉我们之所以把机器设计得复杂,是因为对自身了解不足。
陶一伟:没错。
齐浩之:Evan补充得好,绳驱路线的优势在于容易实现力控,通过调节拉力大小即可。
泓君:像你这样的研究科学家一天能收集多少遥操的力数据?
齐浩之:取决于任务难度。最简单的抓取放置可以收集很多,只要不累,成功率也高。但像用剪子剪窗花或折纸这种难任务,收集一条都很难。这也是我们算法想解决的问题:对于难采集的数据,能否用算法突破?
泓君:所以现在主流方案是跟着视频学?
齐浩之:有多种探索路径。视频是一条,模拟器是一条,还有用特定设备采集数据再转化,比如Sunday和Generalist。
泓君:这是从数据收集方式谈模型训练。遥操数据量小但质量高,视频数据量大但缺乏力等信息。哪种效果好?业内有无共识?
齐浩之:对于公司,还是多用遥操作,追求绝对效果。视频数据很多人在研究,但尚处研究阶段。特斯拉最近也发布了用人类视频学到的操作视频,但绝对能力仍不如遥操作。之所以研究视频,是因为相信当视频量积累到一定程度,能力可能超越遥操作,但不在当下。
泓君:可能追求不同:精确性需要遥操,泛化性需要视频。我的总结对吗?
齐浩之:对,可以这样理解。不同数据有不同特征,有的数据能快速提升能力但难采集,有的易采集但如何最好利用尚无定论。
我们业界有个金字塔模型:遥操作在塔尖,量少但有用;视频在底座,量大但非最有效提升效果的数据。中间有仿真等。
泓君:记得在一次活动上,与DeepMind、OpenAI科学家讨论,大家对Genie3世界模型看法两极分化:一派认为对机器人帮助不大,一派认为很重要。
齐浩之:从研究角度,新基础模型肯定有帮助,关键是如何利用。说完全没用有失偏颇,但认为只靠训练视频生成模型就能解决机器人也不现实,因为视频生成尚未完全解决物理真实性。
每年视频生成在物理层面有进步,但假设靠视频模型能预测物理世界,那语言模型也应无幻觉,因为它们都学习真实数据规则。但语言模型仍存在幻觉,所以视频模型要学到真正物理规律任重道远。我们不能完全依赖视频模型训练机器人,但可提供初始化或其他信号。
泓君:有意思。你们觉得实现手部灵巧动作(如开可乐)有多难?到了GPT时刻吗?
陶一伟:说不定如果机器人能真正开可乐,是个很好的benchmark,达到GPT时刻,因为它综合考量了灵巧性。
齐浩之:我举个例子,20年前本田ASIMO就能在舞台上跑步、上下楼梯。有人质疑为什么20年后人形机器人还只是那个水平?这涉及多容易达到那个水平。现有算法可以很容易让机器人跑步,然后稍微改改就能跳舞,而20年前让机器人跑步需要顶尖团队迭代数月甚至数年。
所以如果未来有一个算法框架,能用很短时间让机器人开可乐,还能做开门、拧螺丝等多样化任务,那确实是GPT时刻。
泓君:我们离那个时刻还有多远?
齐浩之:预测总被打脸,我觉得可能还有3-5年。
泓君:那比我想象中快很多。
陶一伟:从硬件和产品角度,今年内产品就能满足这样的能力。
泓君:你是说在任何场景下开一罐可乐,机器人能自主旋转、任意摆放并打开?
陶一伟:可以这么说。硬件很快能达到这个基石,但系统上限取决于软件和模型能力释放。
齐浩之:最近两年灵巧手井喷式飞跃,前景光明。一是人形机器人火起来后,硬件厂商增多,能制造复杂硬件;二是简单本体(如轮式、平行夹爪)的科研问题趋同,缺乏新爆点,大家转向探索更复杂系统(灵巧手、人形机器人)的算法迭代。这两点共同促进研究发展。
泓君:好的,非常期待。今天聊得非常精彩,谢谢两位。
本文由主机测评网于2026-03-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260329248.html