当前位置：首页 > 科技资讯 > 正文

商汤科技携大晓机器人进军具身智能，以Human-centric范式开启AI新纪元

主机测评网
科技资讯
2026-02-08
276

作者｜黄楠

编辑｜袁斯来

在人工智能领域，商汤科技作为一家创立11年的企业，早已历经多次技术浪潮的洗礼。

当视觉AI崛起时，它从香港中文大学的实验室脱颖而出，成功叩开了规模化落地的大门。然而，面向企业端的业务从来都不轻松，包括商汤在内，大多数公司都必须应对客户长期定制化的开发需求。

直到ChatGPT横空出世，整个行业集体转向大模型。在算力层面先行一步的商汤，找到了发挥优势的舞台。根据商汤年报，其生成式AI 2024年收入达到24亿元，占比从2023年的34.8%跃升至63.7%，成为公司最关键的业务支柱。

但大模型狂奔三年后，一个现实问题浮现：“除了特定场景的单点突破，AI如何真正融入物理世界，成为改变生产与生活的实用工具？”

这也是商汤在每一次技术迭代中始终追问的核心议题。

随着具身智能成为下一代AI革命的主战场，近日，大晓机器人公司正式成立，由商汤联合创始人、执行董事王晓刚出任董事长，标志着商汤正式入局具身智能领域。

王晓刚向硬氪表示，大晓机器人成立的初衷，并非跟风“本体竞赛”或“复杂技能炫技”，而是要回归真实痛点，并提出“以人为中心（Human-centric）”的全新研究范式。在专注于构建能理解物理世界规律的“大脑”基础上，最终输出适配真实场景需求的软硬件一体产品。

这同样是行业趋势。去年仍在探索移动稳定性与适用场景的具身智能行业，短短一年内已景象大变。有公司拿下数亿元订单，走进深圳、上海、苏州的机器人工厂，让具身智能不再是仅仅面向投资者的故事。

AI技术正从“数字智能”迈向“物理智能”。身处其中的老牌AI公司们，发现自己正面临又一次重要转型。

商汤2025年上半年净亏损为11.62亿元，同比下降50%，研发投入持续增长，它亟需找到更落地的方向。

通用智能的突破，不在于一步登天的AGI幻想，而是从真实交互中沉淀可复用的能力。机器人的终极价值不在形态酷炫，而在能否解决物理世界的实际难题。从视觉AI、大模型到具身智能，商汤以大晓机器人为支点，试图撬动的不仅是一个千亿级市场，更是AI与物理世界深度交互的未来。

以下是硬氪与王晓刚的对谈实录，内容经过编辑：

不做单纯的具身大脑公司

硬氪：今年被普遍视为具身智能落地元年。为何商汤选择此时成立大晓机器人切入具身赛道？

王晓刚：主要基于产业化落地与技术范式两个维度的考量。

产业化方面，具身智能是一个规模可达数十万亿乃至更广阔的赛道。正如英伟达创始人黄仁勋所言，未来每个人都可能拥有一个或多个机器人，其数量有望超越手机，单体价值堪比汽车。

对商汤而言，过去我们专注于To B软件领域，若要进一步扩大规模，实现软硬件结合的业务升级，机器人赛道的垂直整合是关键突破口。同时，基于此前在垂直行业的积累，团队深谙用户痛点与需求，相较于对场景理解不足、难以解决实际问题的企业，商汤的场景落地能力更受期待，产业化推进速度也有望更快。

从技术范式看，传统具身智能发展存在明显短板。

机器人本体硬件进展迅速，但“大脑”端的智能能力相对薄弱，核心问题在于采用了“以机器为中心（Machine-centric）”的技术路线；即先设计形态、参数各异的机器人本体，再通过本体采集数据训练通用模型。这种思路并不成立，正如自然界中人与动物无法共享同一大脑，不同结构的机器人如灵巧手、夹爪、不同数量的机械臂等，也难以适配统一模型。

硬氪：大晓机器人团队采用的技术方案有何独特之处？

王晓刚：我们提出的是“以人为中心（Human-centric）”的新技术范式。先研究人类与物理世界的互动方式、运动规律，通过穿戴式设备、第三视角设备等多元工具，结合视觉、触觉、力学等多维度数据，记录人类在真实生产生活中的行为，尤其是复杂的常识性行为。

通过将这些数据输入世界模型，让模型深度理解物理世界规律与人类行为逻辑，从而构建强大的机器人“大脑”。同时，成熟的世界模型反过来还能指导硬件设计，使硬件形态更贴合实际应用需求。

今年八九月份，特斯拉、Figure AI等企业宣布摒弃真机路线，转向基于第一视角摄像头的视觉方案，但其本质仅通过视觉记录人类行为，未涵盖力、触觉、摩擦等关键维度，而这些正是具身智能与物理世界发生三维接触的核心需求。

仅靠视觉技术，机器人可实现跳舞、打拳等模仿类动作，但在挪瓶子、拧螺丝等需要与物理世界交互的场景中，仍面临技术瓶颈。

目前，大晓机器人提出的Human-centric范式已得到实践验证。此前，大晓机器人核心教授成员刘子纬教授团队合作构建了EGO life数据集，包含300小时第一视角与第三视角的人类真实行为数据；基于该数据集研发的具身视觉模型，经实测能有效解决现有数据多为简单无意义行为、难以支撑复杂运动学习的痛点。

商汤科技携大晓机器人进军具身智能，以Human-centric范式开启AI新纪元具身智能商汤科技大晓机器人 Human-centric 第1张

大晓机器人团队成员：一排从左往右依次为李鸿升、陶大程、王晓刚、潘新钢；二排从左往右依次为吕健勤、赵恒爽、刘子纬、刘希慧（图源/企业）

硬氪：公开数据显示，2024年中国具身智能市场规模已突破8000亿元，近两年该领域涌入数百家初创公司。在此背景下，大晓机器人如何定义自身在行业的生态位？

王晓刚：大晓团队的最终目标，是输出软硬件一体的产品，针对性解决各场景下的实际问题，而非单纯做模型的公司。

在此过程中，我们发现现有硬件设计往往难以匹配场景需求，这也推动团队走上联合研发、定制化制造硬件的道路。

以机器狗产品为例，业内传统机器狗的摄像头视角窄、安装位置低，导致在路口无法精准识别行进方向，过马路时难以捕捉红绿灯信号。我们与Insta360合作开发了一款全景相机模组，能实现360度全视角覆盖，解决视野局限问题。

此外，当前不少机器狗仍存在防水性能不足、算力平台成本高、续航有限等痛点，均无法满足实际场景的常态化使用需求。

硬氪：在联合开发的具体落地中，双方的合作模式是怎样的？

王晓刚：我们的强项在于大脑端的模型、导航能力与操作能力。过去，公司虽有B端软件服务及大装置提供底层设施，但在端侧未形成标准化产品形态。

依托前两年商汤投资布局的多家本体硬件及零部件企业，大晓团队采用生态合作模式，提供硬件设计规范，与伙伴联合设计和开发硬件本体；同时，在模型端我们也保持开放，提供基础模型和素材方案。

硬氪：商汤在安防、自动驾驶等领域有丰富的数据与技术积累，这些资源在向具身机器人领域迁移时，哪些核心能力可直接复用？

王晓刚：两方面的核心能力。第一是研发体系与安全标准。自动驾驶与具身机器人都依赖海量数据驱动技术迭代，其沉淀的研发体系、数据闭环、数据飞轮经过验证，能有效提升机器人技术的迭代效率。同时，自动驾驶领域对安全性、数据质量的严苛标准，也可迁移至具身机器人的研发中，为产品可靠性提供保障。

第二，应用功能。我们在智慧城市中积累的方舟平台拥有上百种不同应用功能，以前主要服务于固定摄像头场景。如今，将其与具身机器人打通，当设备走到户外时，借助平台的后端分析能力即可无缝迁移，拓展功能边界。

“一两年内，Human-centric将在机器狗中最先规模化”

硬氪：回顾商汤科技过去十一年，它恰好见证并参与了从视觉AI大规模落地到如今具身智能爆发的完整变迁。如何理解各阶段技术迭代的差异化路径及其底层逻辑？

王晓刚：商汤的发展历程，清晰勾勒了AI技术从1.0到3.0形态的演进脉络。

2014年公司成立之初，AI处于1.0时代，以人脸识别为代表实现技术超越肉眼的识别率。彼时的“智能”来源于人工标注，通过为图像添加标签，给原本无智能属性的图像注入“认知能力”。

但由于标签信息量少、针对性强等局限，不同任务需单独标注对应的图像与视频，出现了“有多少人工就有多少智能”的情况。受限于数据维度，当时的模型不仅体量小，也很难实现跨场景、跨行业的泛化应用。

进入2.0大模型时代，情况发生根本转变，核心区别在于数据本身所含的智能变多了。我们使用互联网上的文字和图文数据，一首诗、一篇文章、一段代码中，记录了人类数千年积累的大量行为智能，远高于简单标签的智能含量。

大模型配合这些数据实现智能化爆发，使模型能够跨越不同场景和行业，具备较强的通用性。

然而，互联网数据的价值正逐渐被“榨干”，通用性的边际效应也逐渐放缓。

进入我们正迈向的3.0具身智能时代，将转向与物理世界的直接交互。要构建理解世界物理规律、人类行为逻辑的“世界模型”，仅靠研读文字和图文数据远远不够，必须深入物理世界展开实际交互。无论是收拾房间、提供服务等具体场景，都蕴含着复杂的实时智能。通过与世界的直接接触与互动，AI将突破现有数据的局限，开辟新的智能增长路径。

硬氪：从行业趋势观察，具身智能赛道的研发热度已从去年聚焦“具身大脑”，转向如今对“小脑”运控能力的探索，这一方向转变背后的本质原因是什么？

王晓刚：我认为核心原因是，大家的研究范式仍然是以机器为中心（Machine-centric）。

在这种范式下，机器的交互自然变成了运控、即小脑，因为它与底层硬件密切相关；然而，也正是由于不同的机器人本体采集的数据不同，导致无法形成通用的、统一的大脑。

其次是无法生成复杂活动。传统依赖真机操控采集数据的模式存在明显局限，只能生成拾取、移动、放置等十几秒钟就能完成的简单动作数据，但像收拾房间、提供服务等复杂的、需要长时间驱动的活动，是无法完成的。

这也佐证了我们提出以人为中心（Human-centric）、通过环境式采集来训练世界模型的必要性。

硬氪：与目前已有的世界模型相比，大晓机器人提出的“开悟”世界模型3.0 （Kairos 3.0），在底层逻辑上有何区别？它是如何解决物理世界幻觉问题的？

王晓刚：我们构建的世界模型与Sora、李飞飞World Labs团队提出的Marble等现有基于合成数据的模型不同，区别在于，开悟3.0采用了“多模态理解融合 — 合成网络 — 行为预测”三段式架构。

商汤科技携大晓机器人进军具身智能，以Human-centric范式开启AI新纪元具身智能商汤科技大晓机器人 Human-centric 第2张

其模型统一了以相机为中心的多模态理解与生成，支持空间想象、并实现灵活的跨视角应用如世界探索（图源/企业）

我们的模型分为三个部分。第一部分是多模态理解与融合；现有模型主要依赖图像、视频及文字描述作为输入，而我们的输入体系更丰富，涵盖图像、视频、相机位姿、目标3D轨迹、触觉力学等多模态信息，这使模型能够更好地理解物理世界。

例如大晓与南洋理工的合作研究中，模型可通过单张照片反推摄像机位姿；当机械臂腕部摄像头捕捉到图像时，能精准定位机械臂位置，并根据图像变化反向推导机械臂的运动轨迹，实现对物理世界交互逻辑的深度理解。

第二个是合成网络；基于第一步的理解融合，开悟世界模型3.0可以合成各种视频，包括能选择不同类型的机器人进行操作任务的合成。

第三个是预测；接收指令后，模型能够预测机械臂下一步应该如何操作，从而指导机器人去操作。这使得我们的模型可以模拟动态场景，将动态目标分开，并能灵活地替换场景中的各种元素，比如换瓶子、换手机、换桌面、甚至换房型等。

这些都是现有的世界模型做不到的，真正从“认知与模拟”延伸至“实际执行”，形成从理解到操作的完整闭环。

硬氪：这种“以人为中心（Human-centric）” 范式在数据效率提升、跨场景泛化能力突破及多模态融合落地层面，具体如何解决行业核心瓶颈？

王晓刚：具体表现为“环境式采集 + 世界模型”的组合模式。这里的“环境”，特指人类所处的生活与生产场景，“世界模型”也聚焦于人与周边环境的交互规律，而非自动驾驶关注的道路场景或水下等特定领域。

Human-centric的优势是数据采集效率高，且所有数据均源自真实场景。同时，除视觉数据外，还整合了力学、触觉等多维度信息，人类多年积累的人体工程学成果，也能在此基础上得以应用，这是实现快速增长的前提，也是此前Machine-centric研究路径所不具备的。

硬氪：Human-centric有望在多长时间内，带来类似自动驾驶领域技术范式确立后的爆发式价值增长？

王晓刚：短期内，Human-centric在四足机器人（机器狗）将最先实现规模化应用。

当前业界的机器狗普遍受限于自主导航与空间智能能力，多依赖人工遥控或固定路线作业，应用场景被严重束缚。大晓团队的方案可以突破这一局限。

一方面，我们在设备上搭载了大晓机器人的自主导航技术，可通过机管平台实现多机协同调度，接收百度地图导航指令自主执行任务，还支持语言、多模态大模型等灵活交互方式；例如可根据指令识别特定人群提供帮助、拍摄违章车辆车牌号等。

另一方面，机器狗与商汤方舟视觉平台深度打通，能借助方舟的视频分析、目标检测、异常事件处理能力，识别打架斗殴、垃圾堆积、未牵绳宠物、违规无人机等场景化问题，并将数据实时回传后台。

这种“自主导航 + 场景智能识别”的组合，配合云端管理平台，可大幅增加其巡检等应用规模。一两年之内，我们能够看到机器人进入部分工业场景。

硬氪：具身智能的商业化落地正遵循梯度推进逻辑，从中长期来看，还有哪些场景值得重点关注？

王晓刚：中期来看，商业服务场景的前置仓物流将成为规模化突破点。

相较于工业场景存在的跨产线复制难问题，前置仓物流的需求具有高度一致性，随着线上购物的普及，各地闪购仓的分拣、打包等环节存在标准化的自动化需求。

目前行业的痛点是，前置仓内SKU数量多达上万种，依赖真机采集数据的传统模式难以覆盖。而我们通过环境式采集积累的海量数据，能有效训练通用模型，实现跨仓快速复制，满足行业规模化落地的核心诉求。

从长期视角出发，家庭场景将是具身智能的重要方向，但落地周期相对更长，安全性问题是核心挑战。机器人进入家庭后，需应对碰撞避让、物品安全等多重风险，类似自动驾驶从L2到L4的责任界定与安全保障难题。

不过，当前行业也在进行积极探索，例如Figure AI基于视觉路线开展环境式采集，与拥有上百万种户型的房地产基金合作，积累家庭场景中的人类行为数据，逐步实现全场景渗透。

阿里云服务器免费服务器云服务器

本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260223971.html

商汤科技携大晓机器人进军具身智能，以Human-centric范式开启AI新纪元

不做单纯的具身大脑公司

“一两年内，Human-centric将在机器狗中最先规模化”

卫澜深海完成千万元天使轮融资，研发“超级蛙人”水下具身平台

硬链接 vs 软链接：深入解析

商汤科技携大晓机器人进军具身智能，以Human-centric范式开启AI新纪元

不做单纯的具身大脑公司

“一两年内，Human-centric将在机器狗中最先规模化”

卫澜深海完成千万元天使轮融资，研发“超级蛙人”水下具身平台

硬链接 vs 软链接：深入解析

相关文章