当前位置：首页 > 科技资讯 > 正文

SAM 3: 引领未来的概念提示分割

语义分割的传统方式变得单调乏味，加入概念提示的语义分割，让一切变得有趣且充满活力。（dogeface）

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第1张

SAM 3——最新一代“万物皆可分割”模型，已在ICLR 2026悄然投稿。

尽管论文尚处于双盲评审阶段，作者保持匿名，但标题已透露一切。

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第2张

简而言之，在官方新版中，分割模型终于能“听懂人话”：只需说出所需之物，SAM 3就能在图像/视频中精准分割出对应实例。

例如，输入“条纹猫”，SAM 3就能自动识别并分割出图中所有带条纹的猫咪：

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第3张

值得一提的是，SAM 3处理含超过百个物体的图像仅需30毫秒，对视频也具备近实时处理能力。

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第4张

能听懂人话的SAM

SAM 1开创了基于点、框、掩码等视觉提示的交互式分割任务新范式；SAM 2在此基础上，增加了对视频和记忆的支持。

如今，SAM 3让交互式分割更进一步，支持基于短语、图像示例等概念提示的多实例分割任务——同时突破了前代只能处理单个实例的局限。

研究团队将这一新任务范式命名为PCS（Promptable Concept Segmentation）。

PCS的定义是，给定图像或视频，模型能够基于短语、图像示例或两者结合的方式，分割出所有匹配提示概念的实例。

相比传统分割任务，PCS强调：

为实现PCS，SAM 3设计了全新架构。

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第5张

在检测与分割模块上，SAM 3的检测器基于DETR（Deformable Transformer）架构，能根据语言和视觉提示生成实例级检测结果。

同时，引入了Presence Head模块，将物体的识别（是什么）和定位（在哪里）任务分离——

在传统对象检测框架中，模型需同时判断目标是否存在及位置，这可能导致冲突，尤其在多实例分割任务中易出问题。

Presence Head的分离处理进一步提升模型的检测精度。

为改进PCS，研究团队构建了可扩展的数据引擎，生成涵盖400万独特概念标签、5200万验证掩码的训练数据集。

数据引擎由多阶段构成，逐步提升数据多样性和难度。

构建过程中人类与大语言模型相互检查，保证高质量同时提升标注效率。

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第6张

为评估模型在开放词汇分割任务中的性能，论文提出SA-Co(Segment Anything with Concepts)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频，概念覆盖范围达现有基准的50倍以上。

SAM 3: 引领未来的概念提示分割 3 概念提示交互式分割多实例分割第7张

需注意的是，SAM 3的语言处理仍局限于简单短语提示，不支持复杂语言表达，不具备多模态大模型的语言生成、复杂语言理解和推理能力。

本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542543.html