【导读】TwinRL利用手机扫描场景构建数字孪生,使机器人先在虚拟环境中大胆探索、精准试错,再回到实体机20分钟内实现全桌面100%成功率——比现有方法快30%,人类干预减少一半以上。
当机器人真正走出『演示数据』限制,背后发生了什么?
你花费两周时间,手把手遥控操作机械臂完成抓香蕉放盘子的任务。机械臂在桌子左半边表现优秀,十拿九稳。
当你将香蕉向右移动15厘米后,机械臂愣住了。
这并非因为它『没学好』,而是因为它从未见过那个位置。
对机械臂而言,桌子右半边是另一个宇宙。
这不是玩笑,这是2025年几乎所有VLA模型在真实世界中的真实处境。
过去两年,Vision-Language-Action(VLA)模型在机器人领域迅速崛起。
从『看图+听话+动手』到多任务、多场景的泛化执行,VLA让机器人看起来像是『理解世界』的智能体。
论文中的成功率动辄90%以上,演示视频也极为吸引人。
但真正做过实体实验的人都知道,这里隐藏着一个大家都心知肚明、却很少有人正面回答的问题:
如果没有人类不断示范,机器人还能不能自己学?
答案是——几乎不能。
现实的残酷在于:
但这些都还不是最致命的。
最致命的是——
RL的探索空间,被SFT演示数据牢牢锁死。
即使给机器人再多奖励,它也只会在『演示数据附近』打转。
就像一个人只在家门口遛弯,你跟他说『去探索世界』,他转一圈还是回到了自家楼下。
探索,根本没有发生。
这个问题被回避得太久了。
直到TwinRL,第一次将它撕开,摊到台面上。
近日,至简动力、北京大学计算机学院多媒体信息处理国家重点实验室、清华大学、香港科技大学提出了一种面向真实世界机器人操作的数字孪生协同强化学习框架 TwinRL(Digital Twin-Driven Reinforcement Learning),可直接在真实机器人上高效执行在线强化学习并系统性扩展探索空间。
据行业知情人士透露,至简动力目前估值已逼近独角兽阵营。成立半年即获得如此密集的顶级资本加持,在整个具身智能赛道中也极为罕见。
TwinRL的核心洞察:RL的问题,不是学不会,而是探索空间被限制。
通过系统性的真实机器人实验,TwinRL团队观察到一个关键现象:
真实世界中,VLA的有效探索空间,几乎完全由SFT数据分布决定。
问题不在算法,而在探索空间本身。
如果真实世界没法并行探索,那就把『探索』这件事,提前搬到一个『可控、可扩展的世界』里。
这个世界,就是数字孪生(Digital Twin)。
和传统『仿真+real2sim』不同,Digital Twin不是用来替代真实世界的,而是用来『放大真实世界探索能力』的。
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436228.html