当前位置:首页 > 科技资讯 > 正文

商汤开源空间智能大模型,领跑空间理解新纪元

智东西11月11日报道,昨晚,商汤科技正式揭晓并开放了SenseNova-SI系列空间智能大模型,涵盖面向企业与面向大众(2B与8B)两个版本

该系列模型在多个空间智能基准测试中表现卓越,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四大核心任务上斩获60.99的平均成绩,不仅远超Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等同级开源通用模型,也超越了SpatialMLLM(35.05)、ViLaSR-7B(36.41)等专注于空间理解的模型。

值得注意的是,在维持8B参数规模的前提下,该模型的平均成绩已超越GPT-5(49.68)与Gemini-2.5-Pro(48.81)

商汤开源空间智能大模型,领跑空间理解新纪元 商汤 SenseNova-SI 空间智能 大模型 第1张

SenseNova-SI系列模型在VSI、MMSI、MindCube、ViewSpatial等空间智能基准测试中取得佳绩。

此番性能飞跃,得益于商汤在训练机制上的系统性设计。研究团队构建了“空间能力分类体系”,并大幅扩充了空间理解数据规模,首次在该领域验证了“尺度效应”的存在

这一技术突破解决了当前多模态大模型面临的核心挑战之一:即空间智能短板尚未完全补齐。尽管当前大模型在语言、代码、逻辑推理等任务上表现优异,但在需要空间理解能力的场景中仍显不足。

例如,GPT-5虽能解出复杂图形逻辑题,但在判断立方体俯视图这类空间题时却出现明显错误。这类题对人类儿童而言可能是直觉判断,却难住了顶级模型。

商汤开源空间智能大模型,领跑空间理解新纪元 商汤 SenseNova-SI 空间智能 大模型 第2张

SenseNova-SI的构建与训练聚焦于空间理解,其开源为大模型在空间智能方向上的能力优化提供了新样本。

GitHub:

Hugging Face:

01.空间智能也有“Scaling Law”?商汤团队首次验证

SenseNova-SI的性能提升并非单点优化,而是基于系统训练范式的整体进化。商汤基于自研的空间能力分类体系,将空间智能细分为六大核心维度: 空间测量、空间重构、空间关系、视角转换、空间形变与空间推理

在训练数据层面,商汤团队整合多模态感知、视觉模型等领域的积累,大幅扩展了空间理解数据规模,并首次在空间智能领域验证了“尺度效应”——即随着数据量与质量的持续增长,模型的空间认知能力将同步增强

这一方法具有通用性,能支持多种基座模型(如InternVL)进行空间能力的增强迁移。商汤团队表示,后续将发布完整的技术报告,进一步阐述具体的技术方案。

02.面对空间题,GPT-5“犯难”,SenseNova-SI表现更稳定

在SITE-Bench和MindCube两大空间智能基准测试中,商汤研究团队选取了六道典型题目,涵盖俯视图判断、视角转换、物体方位与移动方向推理等任务,对GPT-5与SenseNova-SI-8B进行了测试。

结果显示,GPT-5在多项题目中误判连连,而SenseNova-SI-8B则连续给出正确答案,展现出更稳定的空间理解能力:

1、俯视图选择题:在立方体组合图形中,要求选择正确俯视图。GPT-5选择了错误的D选项,而SenseNova-SI-8B选择了正确的B选项。

商汤开源空间智能大模型,领跑空间理解新纪元 商汤 SenseNova-SI 空间智能 大模型 第3张

... (后续段落保持原样) ...