2023年4月,Meta AI推出了图像分割领域的基石模型——Segment Anything Model(SAM)。
SAM旨在使计算机具备「万物皆可分割」的能力。
2024年7月,Meta推出了SAM 2,实现了从图像到视频的分割,并大幅提升了性能。
如今,SAM系列即将迎来第三次迭代。
ICLR 2026会议盲审论文《SAM3:用概念分割一切》探讨了SAM 3的升级细节。
论文《SAM 3: Segment Anything with Concepts》为我们揭示了SAM新版本的秘密。
该论文目前处于ICLR 2026会议盲审阶段,作者身份尚未公开,但从标题中不难推测其内容是围绕SAM第三代的更新。
SAM3的核心突破在于它引入了「基于概念的分割」,即不仅按像素或实例,还按「语义概念」来理解和分割图像。
只需一个提示,如「黄色校车」或一张参考图片,SAM 3就能在不同场景中识别和分割出对应物体。
这一功能被定义为可提示的概念分割(Promptable Concept Segmentation,PCS)。
为了支持PCS,研究团队还构建了一个可扩展的数据引擎,生成了涵盖图像与视频的高质量数据集,包含约400万个不同的概念标签。
SAM架构新增了「可提示分割」任务,可通过交互式提示分割图像与视频中的目标。
早期版本的SAM 1和SAM 2更侧重于视觉提示,且每个提示只能分割单个对象实例。
这无法解决更广泛的问题:在任意图像或视频中,自动找出所有属于同一概念的对象。
例如,输入「猫」,不仅是要找出一只猫,而是找出所有猫。SAM 3正是为此而设计的。
与前代模型相比,它不仅改进了可提示视觉分割(PVS),还开创了新的标准——可提示概念分割(PCS)。
PCS能完成以下任务:
根据提示(文字或图像),找出图像或视频中所有符合这个「概念」的对象,并保持每个对象的身份一致。
例如输入「红苹果」,模型会在不同帧中追踪每一个红苹果。
在实际使用中,用户还能通过交互方式(如添加更多提示)逐步细化结果,解决模糊或歧义情况。
图1对比展示了SAM 3与SAM 2的核心区别,说明了从「可提示视觉分割」(PVS)到「可提示概念分割」(PCS)的进化。
图2展示了SAM 3如何从「理解一个提示」到「交互式细化分割结果」的全过程,体现了PCS任务的核心特征——可提示、可交互、可概念化。
1. 更广的媒体域:不仅限于同质网页来源,涵盖更多图像和视频场景;
2. 智能标签生成:使用多模态大模型(MLLM)作为「AI标注员」,生成更多样且有挑战性的概念标签;
3. 标签验证:通过微调MLLM使其成为高效的「AI验证员」,达到接近人类的表现,从而翻倍标注吞吐量。
研究人员将PCS定义为以下任务:
给定一张图片或一段不超过30秒的视频,让模型根据一个概念提示(可以是文字、示例图像,或两者结合),去检测、分割并跟踪所有符合该概念的对象。
这些「概念」通常由简单名词短语(noun phrase,NP)组成,包含一个名词和可选修饰语,如「红苹果」或「条纹猫」。
- 多专家标注:
- 评估协议优化:
- 标注规范与数据清洗:
- 模型层面处理:
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542592.html