当前位置:首页 > 科技资讯 > 正文

SAM 3: 引领未来的概念提示分割

语义分割的传统方式变得单调乏味,加入概念提示的语义分割,让一切变得有趣且充满活力。(dogeface)

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第1张

SAM 3——最新一代“万物皆可分割”模型,已在ICLR 2026悄然投稿。

尽管论文尚处于双盲评审阶段,作者保持匿名,但标题已透露一切。

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第2张

简而言之,在官方新版中,分割模型终于能“听懂人话”:只需说出所需之物,SAM 3就能在图像/视频中精准分割出对应实例。

例如,输入“条纹猫”,SAM 3就能自动识别并分割出图中所有带条纹的猫咪:

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第3张

值得一提的是,SAM 3处理含超过百个物体的图像仅需30毫秒,对视频也具备近实时处理能力。

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第4张

能听懂人话的SAM

SAM 1开创了基于点、框、掩码等视觉提示的交互式分割任务新范式;SAM 2在此基础上,增加了对视频和记忆的支持。

如今,SAM 3让交互式分割更进一步,支持基于短语、图像示例等概念提示多实例分割任务——同时突破了前代只能处理单个实例的局限。

研究团队将这一新任务范式命名为PCS(Promptable Concept Segmentation)。

PCS:可提示概念分割

PCS的定义是,给定图像或视频,模型能够基于短语、图像示例或两者结合的方式,分割出所有匹配提示概念的实例。

相比传统分割任务,PCS强调:

  • 开放性词汇:不局限于预定义类别,支持用户输入任意名词短语作为分割目标;
  • 全实例分割:找到并分割所有符合提示的实例,在视频中保持不同帧间的身份一致性;
  • 多模态提示:支持文本、视觉及两者结合的多种提示输入;
  • 用户交互:允许用户通过交互进行分割结果的精细优化。

新架构设计

为实现PCS,SAM 3设计了全新架构。

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第5张

在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能根据语言和视觉提示生成实例级检测结果。

同时,引入了Presence Head模块,将物体的识别(是什么)和定位(在哪里)任务分离——

在传统对象检测框架中,模型需同时判断目标是否存在及位置,这可能导致冲突,尤其在多实例分割任务中易出问题。

Presence Head的分离处理进一步提升模型的检测精度。

大规模数据引擎

为改进PCS,研究团队构建了可扩展的数据引擎,生成涵盖400万独特概念标签、5200万验证掩码的训练数据集。

数据引擎由多阶段构成,逐步提升数据多样性和难度。

构建过程中人类与大语言模型相互检查,保证高质量同时提升标注效率。

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第6张

SA-Co基准

为评估模型在开放词汇分割任务中的性能,论文提出SA-Co(Segment Anything with Concepts)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围达现有基准的50倍以上。

SAM 3: 引领未来的概念提示分割 3 概念提示 交互式分割 多实例分割 第7张

需注意的是,SAM 3的语言处理仍局限于简单短语提示,不支持复杂语言表达,不具备多模态大模型的语言生成、复杂语言理解和推理能力。