当前位置:首页 > 科技资讯 > 正文

SAM 3:第三代分割一切模型,支持概念提示分割

传统语义分割技术常被视为单调且缺乏趣味性,而引入概念提示的语义分割则带来了前所未有的互动性和爆炸性创新。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第1张

SAM 3——第三代“分割一切”模型近日被曝光,并已秘密提交至ICLR 2026会议进行评审。

论文目前处于双盲评审阶段,作者身份保持匿名,但论文标题已揭示其核心内容。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第2张

简而言之,这一官方新版本使得分割模型能够理解自然语言指令:用户仅需口头描述目标对象,SAM 3即可在图像或视频中分割出所有相关实例。

例如,当输入“条纹猫”时,SAM 3能够自动识别并分割图像中所有具备条纹特征的猫咪。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第3张

值得关注的是,SAM 3处理包含超过100个物体的图像仅需30毫秒,并在视频处理中展现出近乎实时的性能。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第4张

能够理解人类语言的SAM

SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开创了分割模型的新范式;SAM 2则在此基础上,增强了对视频和记忆的支持。

这一次,SAM 3将交互式分割推向新高度:支持基于短语、图像示例等概念提示多实例分割任务——同时突破了前代仅能处理单个实例的限制。

论文中,SAM 3的研究团队将这种新任务范式命名为PCS(可提示概念分割)。

PCS:可提示概念分割

PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或两者结合的方式,分割其中所有匹配提示概念的实例。

相比于传统分割任务,PCS强调以下特性:

开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;

全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;

多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;

用户交互:允许用户通过交互进行分割结果的精细优化。

新架构设计

SAM 3为实现PCS设计了全新的架构。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第5张

主要是在检测与分割模块上,SAM 3的检测器基于DETR(可变形变压器)架构,能够根据语言和视觉提示生成实例级的检测结果。

同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——

在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。

Presence Head将两者分开处理,从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。

数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第6张

SA-Co基准

为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(基于概念的分割一切)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第7张

不过需要说明的是,SAM 3对语言的处理还局限于简单的短语提示,不支持复杂的语言表达,并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果

实验结果表明,SAM 3在可提示分割任务中刷新了当前最优性能。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5有显著提升。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第8张

另外,在针对视频的PVS(可提示视觉分割)任务中,SAM 3的性能也优于SAM 2。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第9张

研究人员还把SAM 3和多模态大模型(MLLM)相结合,探索解决更复杂的任务需求。

比如分割图片中“坐着但没拿礼物盒的人”。

大模型会先拆解需求,例如先找坐着的人,再排除拿礼物盒的人,然后给SAM 3发指令。

结果显示,SAM 3+MLLM的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。

SAM 3:第三代分割一切模型,支持概念提示分割 3 概念提示分割 开放词汇分割 视频分割 第10张

在H200 GPU上,SAM 3处理含100多个实体的单张图像只需要30毫秒的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。

不过,论文也指出,SAM 3难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多GPU并行处理。

论文地址:https://openreview.net/forum?id=r35clVtGzw