
上个月再次飞往硅谷,与具身智能领域的科学家和创业者们进行了深入的交流。我总结出一个核心感受:具身智能这个宏大的故事,还需要我们拥有「五年耐心」。这一判断,源于对其当前阶段、核心瓶颈以及未来演进路径的细致分析。
具身智能赛道无疑最热的是人形机器人。
人形机器人进入产线,是国内众多具身智能公司描绘的前景。然而,在与多位国内外具身智能领域的创始人深入交流后,我发现大家普遍担忧:将一个尚不成熟的通用机器人硬塞进以精准和效率为核心的工业产线,其挑战是巨大的。
机器人追求通用性,就必须突破机械臂等「专用」的编程控制,需要拥有大脑和小脑,具备自主的推理和控制能力。人形机器人的设计初衷也是为了通用性,能够使用人类已有的工具设施、适应社会环境及生产场景。但当前机器人的大脑还未发展成熟,即便能做到「运动像人」,在决策能力上仍显脆弱,无法应对真实世界的动态变化和意外情况。
这种用「通用性」换取「精准性」和「效率」的做法,在当前工业线上以机械臂为主流的情况下,显得尤为错位。通用机器人进入需要高精准、高效率的场景,挑战重重。
可以断言,今天的通用机器人进入任何需要将「精准」、「效率」、「成本效益」作为底线的场景,都面临巨大挑战。创业公司宣传的落地场景大多具有「展示性」、「实验性」,甚至「融资支撑性」,并非真正理性、市场化和可行的交易。
坦诚而言,目前具身智能中的通用机器人,特别是人形机器人提供的核心价值,更像是一种「情绪价值」——通过不断的能力进步,引领社会共识期待,进而获得更多资源推动技术加速进步。
虽然这并非没有意义,就像1960年代的阿波罗登月计划,在技术和商业上当时都显得「不合理」,但推动了资源汇聚和技术生态构建,对航天科技的发展意义重大,带来了几十年后航天领域的巨大商业价值。但具身智能领域,特别是人形机器人目前仍像一个成长中的孩子,每一点进步都能点燃我们对未来的想象和信心。
然而,「家长」需要有正确的认知。即便一个孩子显示出惊人的潜力和超预期的进步,长身体、见世面依旧是这个阶段的重心。过早地考核其是否能承担重任可能是问题所在。如果「家长」将Demo中的信心误认为是商业部署的决心,过度透支其未来,那么赞许很可能变成批判。例如,当明年许多「产线故事」无法兑现时,行业可能会迎来顿挫。
那么合理的预期是什么呢?通用机器人这个问题,或许可以用大语言模型(LLM)的发展来类比。我收集到的合理预期是,一到两年内,具身智能有望迎来它的「GPT-3.0 时刻」——指在实验室环境下,圈内人将看到机器人的通用模型(大脑+小脑)明显的技术突破,并对主流技术路线达成共识。
但从 3.0 到能让公众在一些需求上使用的 3.5(如Chatgpt),甚至到开始构建新产业生态的 4.0,还有很长的路要走,可能还需要一个「五年耐心」。
从当前「情绪价值」阶段迈向下一个让业内人士兴奋的技术突破阶段——「GPT-3.0 时刻」,核心问题是什么?
我听到的一些核心从业者认为,「突破数据瓶颈」是关键。虽然模型路线尚未完全收敛,但模型架构的切换可能只是几百行代码的事。真正的鸿沟在于如何获取规模化的、高质量的、多样性的数据。
一种数据来源是从现实世界中采集,通过遥操作或示教记录动作。然而,「现实数据」的生产存在三个局限:规模上不去、成本下不来、多样性不够。
这种数据困境与自动驾驶形成鲜明对比。自动驾驶不存在「预训练数据瓶颈」,每辆在路上行驶的汽车都在不断采集真实世界的驾驶数据。而通用机器人领域则完全不具备这种优势,数据获取的窘境尤为突出。
正是这些局限使得数据成为整个具身智能赛道最窄的瓶颈。
最近全球不少团队正在推动一种范式转移:通过高精度的物理引擎,将「数据问题」转化为一个「算力问题」。在一个足够真实的模拟器里,你可以用代码而不是人力创造无限的数据。这种从「手工生产」到自动化「数据工厂」的进化使得数据不再是稀缺资源。
主流预期是业内有机会在未来 1-2 年看到具备泛化能力的模型并对主流技术路线达成共识。
从令人兴奋的 3.0 时刻到能让公众安全、可靠使用的 4.0 阶段是五年耐心中最漫长的部分。这背后是具身智能独有的、残酷的物理约束:
首先,「仿真的边界决定了它无法独自完成从 3.0 到 4.0 的跨越」。仿真数据不是万能灵药。仿真可以高效地解决模型从 0 到 90% 的问题但最后那「从 90% 到 99.999%」的鸿沟还得靠真实世界的数据来填补。
仿真世界再逼真也只是对现实世界的「近似」。它可以完美模拟牛顿定律但现实世界充满了仿真的「噩梦」。仿真能解决 90% 能力的「广度」问题但决定 100% 可靠性的是那最后 10% 的「长尾细节」。
因此业界一个日趋清晰的理想路径是用规模化的仿真数据构建机器人对物理世界的基础认知和通用能力然后用高价值的、聚焦特定场景的真实数据进行最终的「精调」。
这也带来了第二个约束:具身智能的「试错成本」与「物理世界的回环速度」和大模型不在一个量级。大模型可以在一秒内进行数千次「虚拟试错」并快速迭代但机器人的一个「幻觉」都可能导致任务失败、财产损失甚至安全事故。
此外LLM 从 3.0 进化到 4.0 的关键步骤是引入大规模的人类反馈。但机器人要获得大规模、多样化的真实世界反馈数据必须先拥有大规模部署在真实环境中的机器人硬件。这个矛盾是软件世界不存在的巨大商业和工程障碍。
因此「五年之约」并非随意数字而是一个基于物理约束、硬件瓶颈和商业现实的理性预期。我们需要至少一到两年去迎接激动人心的「GPT-3.0 时刻」然后还需要三到四年用于硬件的逐步铺开、真实数据的漫长积累和对物理世界无尽长尾问题的艰苦攻克。
具身智能是一条漫长且充满挑战的道路什么样的参与者才可能跑完全程?谁更有可能夺冠?
结合前面的分析可以大致勾勒出终局玩家所必需的几个要素:
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441452.html