语义分割的传统方式变得单调乏味,加入概念提示的语义分割,让一切变得有趣且充满活力。(dogeface)
SAM 3——最新一代“万物皆可分割”模型,已在ICLR 2026悄然投稿。
尽管论文尚处于双盲评审阶段,作者保持匿名,但标题已透露一切。
简而言之,在官方新版中,分割模型终于能“听懂人话”:只需说出所需之物,SAM 3就能在图像/视频中精准分割出对应实例。
例如,输入“条纹猫”,SAM 3就能自动识别并分割出图中所有带条纹的猫咪:
值得一提的是,SAM 3处理含超过百个物体的图像仅需30毫秒,对视频也具备近实时处理能力。
SAM 1开创了基于点、框、掩码等视觉提示的交互式分割任务新范式;SAM 2在此基础上,增加了对视频和记忆的支持。
如今,SAM 3让交互式分割更进一步,支持基于短语、图像示例等概念提示的多实例分割任务——同时突破了前代只能处理单个实例的局限。
研究团队将这一新任务范式命名为PCS(Promptable Concept Segmentation)。
PCS的定义是,给定图像或视频,模型能够基于短语、图像示例或两者结合的方式,分割出所有匹配提示概念的实例。
相比传统分割任务,PCS强调:
为实现PCS,SAM 3设计了全新架构。
在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能根据语言和视觉提示生成实例级检测结果。
同时,引入了Presence Head模块,将物体的识别(是什么)和定位(在哪里)任务分离——
在传统对象检测框架中,模型需同时判断目标是否存在及位置,这可能导致冲突,尤其在多实例分割任务中易出问题。
Presence Head的分离处理进一步提升模型的检测精度。
为改进PCS,研究团队构建了可扩展的数据引擎,生成涵盖400万独特概念标签、5200万验证掩码的训练数据集。
数据引擎由多阶段构成,逐步提升数据多样性和难度。
构建过程中人类与大语言模型相互检查,保证高质量同时提升标注效率。
为评估模型在开放词汇分割任务中的性能,论文提出SA-Co(Segment Anything with Concepts)基准。
SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围达现有基准的50倍以上。
需注意的是,SAM 3的语言处理仍局限于简单短语提示,不支持复杂语言表达,不具备多模态大模型的语言生成、复杂语言理解和推理能力。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542543.html