智东西11月20日讯,Meta今日揭晓了全新的模型家族——SAM 3D,并推出了两款引人注目的3D模型:用于物体和场景重建的SAM 3D Objects,以及专注于人体和体型估计的SAM 3D Body。
让我们一睹其效果,SAM 3D系列模型在点击图像中的元素后,能直接从2D图像中‘抠’出3D模型,无论是物体还是人像,都能实现精准重建。旋转查看重建后的模型,几乎难以察觉任何瑕疵。
SAM全称Segment Anything Model,直译为“分割一切”模型。Meta此前已开源了SAM 1、SAM 2两款2D图像分割模型,是这一领域的标杆之作。
在发布SAM 3D系列模型的同时,备受关注的SAM 3也迎来了正式亮相。其亮点在于引入了“可提示概念分割”的新功能。
以往,大多数图像分割模型只能根据有限的预设标签进行分割。而SAM 3让用户可以输入如“狗”、“大象”、“斑马”等具体标签,或“动物”等整体概念,甚至是“穿着黑色外套、戴着白色帽子的人”这样的描述,从而实现图像分割。这极大地提升了模型的通用性。
SAM 3还具备超快的推理速度,在单张英伟达H200 GPU上,仅需约30毫秒即可识别包含超过100个可检测物体的图片。
英伟达开发者技术总结Nader Khalil赞叹道:“这或许是计算机视觉的ChatGPT时刻,强大的分割功能意味着用户只需点击一下就能训练计算机视觉模型,太令人惊叹了。”
Meta已将SAM 3D Objects和Sam 3投入市场。Facebook Market新推出的“房间视图”功能让用户在购买家具前能直观感受家居装饰品在空间中的风格和合适度。
目前,SAM 3D系列模型和SAM 3均可通过Meta最新打造的Segment Anything Playground体验。其训练和评估数据、评估基准、模型检查点、推理代码及参数化人类模型均已开源。其中,SAM 3开放了模型检查点、评估数据集和微调代码。
过去,三维建模面临数据匮乏的困境。与丰富的文本、图像资料相比,真实世界的3D数据极为稀缺。大多数模型只能处理孤立的合成资产或在简单背景下重建单个高分辨率物体,这限制了其在现实场景中的应用。
而SAM 3D Objects的推出打破了这一局限。借助强大的数据注释引擎,它在大规模自然图像上实现了对3D物体的精细标注:近百万张图像生成超过314万个网格模型。
这一过程结合了“众包+专家”模式:普通数据标注者对模型生成的多个选项进行评分,最复杂的部分则由资深3D艺术家处理。
此外,SAM 3D Objects还借鉴大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练”。通过后续阶段的微调,使模型在真实图像上表现出色。
这种方法不仅提升了模型的鲁棒性和输出质量,还反过来提高了数据生成的效率,实现了数据引擎与模型训练的正向循环。
为验证成果,团队与艺术家合作建立了SAM 3D艺术家对象数据集(SA-3DAO)。这是首个专门用于评估物理世界图像中单幅3D重建能力的数据集。与现有基准相比,该数据集更具挑战性。
在性能方面,SAM 3D Objects在一对一的人类偏好测试中以5:1的优势战胜现有领先模型。结合扩散捷径和优化算法,它能在数秒内完成全纹理3D重建,为几乎实时的三维应用如机器人即时视觉感知提供了可能。
不仅能重建物体的形状、纹理和姿态,还能让用户自由操控摄像机,从不同角度观察场景。这意味着即使是小物体、遮挡或间接视角,SAM 3D Objects也能从日常照片中提取出三维细节。
尽管这一模型仍有提升空间(如分辨率有限、复杂物体细节可能缺失),但未来通过提高分辨率和加入多物体联合推理,有望在真实世界场景中实现更精细、更自然的三维重建。
SAM 3D Objects专注于物体三维重建,而SAM 3D Body则致力于人体三维重建。它能从单张图像中精确估算人体的三维姿态和形状,即便面对异常姿势、局部遮挡或多人复杂场景也能稳定输出。
值得注意的是,SAM 3D Body支持提示输入。用户可通过分割掩码、二维关键点等方式引导和控制模型的预测,使三维重建更具交互性和可控性。
其核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式。它将人体的骨骼结构与软组织形状分离,提高了模型输出的可解释性。
采用Transformer Encoder-Decoder架构的模型让图像编码器能捕捉身体各部位的高分辨率细节,而网格解码器则支持基于提示的三维网格预测。这种设计使用户不仅能获得精确的三维人体模型,还能在交互中灵活调整和微调结果。
本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544825.html