当前位置:首页 > 科技资讯 > 正文

SAM 3:开启可提示概念分割新纪元

只需说出概念,SAM 3 就能理解并精确勾勒出所有实例的边界。

Meta 的“分割一切”系列模型迎来重大更新?

9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」出现在 ICLR 2026 会议中,迅速引发业界广泛讨论。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第1张

  • 论文标题:SAM 3: Segment Anything with Concepts
  • 论文地址:https://openreview.net/forum?id=r35clVtGzw

外界普遍猜测该论文出自 Meta,因其行文风格与 Meta 既往研究高度相似。加之 SAM 和 SAM 2 均由 Meta 发布,几乎可以肯定 SAM 3 是该系列的正统续作。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第2张

从时间线看,SAM 3 的发布完美契合 Meta 的迭代节奏。SAM 1 于 2023 年 4 月问世,获 ICCV 最佳论文提名,其零样本分割能力被视作计算机视觉的“GPT-3 时刻”。

SAM 2 于 2024 年 7 月推出,统一了图像与视频的实时可提示分割功能。如今一年过去,SAM 3 的登场恰如其时。

那么 SAM 3 带来了哪些革新?

它被定义为一项更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)

系统能以文本或图像范例作为输入,为每个匹配概念的对象预测实例掩码和语义掩码,并在视频中保持对象身份一致性。其核心是识别原子视觉概念,因此输入文本限于简单名词短语,如“红苹果”或“条纹猫”,只需描述目标,模型即可在图像或视频中定位并分割所有对应实例

这意味着分割模型真正学会了理解语言,且并非模糊关联,而是基于视觉的精准理解。提及概念,模型便能识别并描绘所有相关边界。

或许有人记得 SAM 1 已具备文本功能,但 SAM 3 有何不同?

论文指出,SAM 1 的文本提示功能“未被充分开发”。SAM 1 和 SAM 2 侧重视觉提示(如点、框、掩码)。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第3张

它们未能解决更广泛的任务:即从输入中(如一段视频内所有“猫”)找出并分割某一概念的全部实例。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第4张

简言之,SAM 3 使用户从“手动逐个标注”升级为“告知概念,自动全部分割”。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第5张

SAM 3 在两方面取得进展。在点击式可提示视觉分割(左图)上优于 SAM 2;同时在可提示概念分割(右图)上突破显著,用户可通过简短名词短语、图像范例或组合指定概念并分割所有实例。

在新基准 SA-Co 上,SAM 3 性能较前系统提升至少 2 倍。在多个公开基准获 SOTA,如 LVIS 数据集零样本掩码平均精度达 47.0,此前最佳为 38.5。

此外,模型在单个 H200 GPU 上处理含超 100 物体的图像仅需 30 毫秒。

但评论区也存在质疑。有人指出,基于文本描述的分割思路并不新颖,学术界早已称为“指代分割”,已有大量研究。因此认为该工作仅是旧概念的“重命名”包装。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第6张

另有评论认为,Meta 只是在“追赶”开源社区,因社区早通过组合模型(如检测模型与 LLM API)实现类似功能。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第7张

方法介绍

论文称,SAM 3 是 SAM 2 的扩展,在图像与视频可提示分割上实现重大突破。

相比 SAM 2,SAM 3 在可提示视觉分割(PVS)上表现更优,并为可提示概念分割(PCS)设立新标准。

PCS 与 PVS 任务简言之,SAM 3 接受概念提示(如简单名词短语“黄色校车”或图像示例)或视觉提示(如点、框、掩码)来定义需时空分割的对象(可逐个处理)。

本文聚焦识别原子级视觉概念,如红色苹果或条纹猫。如图 1,用户可通过简短名词短语、图像示例或组合分割指定概念的所有实例。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第8张

但 PCS 存在固有模糊性,许多概念有多重释义:如“小窗户”具主观性(大小标准)和边界模糊(是否含百叶窗)。

针对此,Meta 在数据收集、指标设计和模型训练等多阶段系统处理模糊性。与前代一致,SAM 3 保持完全交互性,允许用户通过添加优化提示消除歧义,引导输出预期结果。

模型架构上,SAM 3 采用双编码器-解码器 Transformer 架构,作为具图像级识别能力的检测器——结合跟踪器和内存模块,可应用于视频。检测器和跟踪器通过对齐的感知编码器(PE)主干接收视觉-语言输入。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第9张

此外,研究构建了可扩展人机协同数据引擎(如下图),用于大规模多样化训练数据标注。基于此系统,成功标注了含 400 万独特短语和 5200 万掩码的高质量训练数据,以及含 3800 万短语和 14 亿掩码的合成数据集。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第10张

进一步,本文创建了用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试,涵盖 124K 图像和 1.7K 视频中的 214K 独特概念,概念数量超现有基准 50 倍以上。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第11张

实验

表 1 显示:在零样本设置下,SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具竞争力,在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上,SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍,在其他 SA-Co 子集上提升更明显。

在 ADE-847、PascalConcept-59 和 Cityscapes 上的开放词汇语义分割实验显示,SAM 3 表现超越强大专家基线 APE。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第12张

小样本自适应。SAM 3 在 10-shot 设置下实现当前最优性能,超越 Gemini 的上下文提示及目标检测专家模型(如 gDino)。

带有 1 个样本的 PCS。表 3 显示在三种设置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上表现远超之前最先进的 T-Rex2。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第13张

物体计数。结果如表 4,与 MLLM 相比,SAM 3 不仅实现良好物体计数准确率,还提供大多数 MLLM 无法提供的对象分割功能。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第14张

SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 表现远超基线,尤其在含大量名词短语的基准测试中。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第15张

表 6 将 SAM 3 与 VOS(视频对象分割)任务先进方法比较。SAM 3 在大多数基准测试中比 SAM 2 有显著改进。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。

SAM 3:开启可提示概念分割新纪元 3  可提示概念分割 Meta AI 计算机视觉 第16张