当前位置：首页 > 科技资讯 > 正文

SAM 3：开启可提示概念分割新纪元

主机测评网
科技资讯
2026-01-08
800

只需说出概念，SAM 3 就能理解并精确勾勒出所有实例的边界。

Meta 的“分割一切”系列模型迎来重大更新？

9 月 12 日，一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」出现在 ICLR 2026 会议中，迅速引发业界广泛讨论。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第1张

论文标题：SAM 3: Segment Anything with Concepts
论文地址：https://openreview.net/forum?id=r35clVtGzw

外界普遍猜测该论文出自 Meta，因其行文风格与 Meta 既往研究高度相似。加之 SAM 和 SAM 2 均由 Meta 发布，几乎可以肯定 SAM 3 是该系列的正统续作。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第2张

从时间线看，SAM 3 的发布完美契合 Meta 的迭代节奏。SAM 1 于 2023 年 4 月问世，获 ICCV 最佳论文提名，其零样本分割能力被视作计算机视觉的“GPT-3 时刻”。

SAM 2 于 2024 年 7 月推出，统一了图像与视频的实时可提示分割功能。如今一年过去，SAM 3 的登场恰如其时。

那么 SAM 3 带来了哪些革新？

它被定义为一项更高级的任务：可提示概念分割（Promptable Concept Segmentation, PCS）。

系统能以文本或图像范例作为输入，为每个匹配概念的对象预测实例掩码和语义掩码，并在视频中保持对象身份一致性。其核心是识别原子视觉概念，因此输入文本限于简单名词短语，如“红苹果”或“条纹猫”，只需描述目标，模型即可在图像或视频中定位并分割所有对应实例。

这意味着分割模型真正学会了理解语言，且并非模糊关联，而是基于视觉的精准理解。提及概念，模型便能识别并描绘所有相关边界。

或许有人记得 SAM 1 已具备文本功能，但 SAM 3 有何不同？

论文指出，SAM 1 的文本提示功能“未被充分开发”。SAM 1 和 SAM 2 侧重视觉提示（如点、框、掩码）。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第3张

它们未能解决更广泛的任务：即从输入中（如一段视频内所有“猫”）找出并分割某一概念的全部实例。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第4张

简言之，SAM 3 使用户从“手动逐个标注”升级为“告知概念，自动全部分割”。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第5张

SAM 3 在两方面取得进展。在点击式可提示视觉分割（左图）上优于 SAM 2；同时在可提示概念分割（右图）上突破显著，用户可通过简短名词短语、图像范例或组合指定概念并分割所有实例。

在新基准 SA-Co 上，SAM 3 性能较前系统提升至少 2 倍。在多个公开基准获 SOTA，如 LVIS 数据集零样本掩码平均精度达 47.0，此前最佳为 38.5。

此外，模型在单个 H200 GPU 上处理含超 100 物体的图像仅需 30 毫秒。

但评论区也存在质疑。有人指出，基于文本描述的分割思路并不新颖，学术界早已称为“指代分割”，已有大量研究。因此认为该工作仅是旧概念的“重命名”包装。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第6张

另有评论认为，Meta 只是在“追赶”开源社区，因社区早通过组合模型（如检测模型与 LLM API）实现类似功能。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第7张

方法介绍

论文称，SAM 3 是 SAM 2 的扩展，在图像与视频可提示分割上实现重大突破。

相比 SAM 2，SAM 3 在可提示视觉分割（PVS）上表现更优，并为可提示概念分割（PCS）设立新标准。

PCS 与 PVS 任务简言之，SAM 3 接受概念提示（如简单名词短语“黄色校车”或图像示例）或视觉提示（如点、框、掩码）来定义需时空分割的对象（可逐个处理）。

本文聚焦识别原子级视觉概念，如红色苹果或条纹猫。如图 1，用户可通过简短名词短语、图像示例或组合分割指定概念的所有实例。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第8张

但 PCS 存在固有模糊性，许多概念有多重释义：如“小窗户”具主观性（大小标准）和边界模糊（是否含百叶窗）。

针对此，Meta 在数据收集、指标设计和模型训练等多阶段系统处理模糊性。与前代一致，SAM 3 保持完全交互性，允许用户通过添加优化提示消除歧义，引导输出预期结果。

模型架构上，SAM 3 采用双编码器-解码器 Transformer 架构，作为具图像级识别能力的检测器——结合跟踪器和内存模块，可应用于视频。检测器和跟踪器通过对齐的感知编码器（PE）主干接收视觉-语言输入。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第9张

此外，研究构建了可扩展人机协同数据引擎（如下图），用于大规模多样化训练数据标注。基于此系统，成功标注了含 400 万独特短语和 5200 万掩码的高质量训练数据，以及含 3800 万短语和 14 亿掩码的合成数据集。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第10张

进一步，本文创建了用于 PCS 任务的 Segment Anything with Concepts（SA-Co）基准测试，涵盖 124K 图像和 1.7K 视频中的 214K 独特概念，概念数量超现有基准 50 倍以上。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第11张

实验

表 1 显示：在零样本设置下，SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具竞争力，在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上，SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍，在其他 SA-Co 子集上提升更明显。

在 ADE-847、PascalConcept-59 和 Cityscapes 上的开放词汇语义分割实验显示，SAM 3 表现超越强大专家基线 APE。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第12张

小样本自适应。SAM 3 在 10-shot 设置下实现当前最优性能，超越 Gemini 的上下文提示及目标检测专家模型（如 gDino）。

带有 1 个样本的 PCS。表 3 显示在三种设置下，SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上表现远超之前最先进的 T-Rex2。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第13张

物体计数。结果如表 4，与 MLLM 相比，SAM 3 不仅实现良好物体计数准确率，还提供大多数 MLLM 无法提供的对象分割功能。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第14张

SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 表现远超基线，尤其在含大量名词短语的基准测试中。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第15张

表 6 将 SAM 3 与 VOS（视频对象分割）任务先进方法比较。SAM 3 在大多数基准测试中比 SAM 2 有显著改进。对于交互式图像分割任务，SAM 3 在平均 mIoU 方面优于 SAM 2。

SAM 3：开启可提示概念分割新纪元 3 可提示概念分割 Meta AI 计算机视觉第16张

免费服务器高防服务器

本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260115846.html

SAM 3：开启可提示概念分割新纪元

方法介绍

实验

Linux进程状态详解（小白必读教程）

Linux系统运维完全指南（零基础入门与实战技巧）

SAM 3：开启可提示概念分割新纪元

方法介绍

实验

Linux进程状态详解（小白必读教程）

Linux系统运维完全指南（零基础入门与实战技巧）

相关文章