当前位置:首页 > 科技资讯 > 正文

Meta DINOv3:自监督学习引领视觉全能新纪元

【导读】Meta最新力作DINOv3,以自监督学习震撼登场,17亿张图片训练,视觉性能无出其右!NASA火星探测、医疗、卫星、自动驾驶全面革新。

70亿参数巨擘DINOv3,Meta倾力打造,完全开源!

借助自监督学习(SSL)的强大力量,DINOv3能够生成高精度图像特征,展现非凡实力。

在多个密集预测任务中,这是首个单一视觉主干网络超越专用解决方案的里程碑。

DINOv3重新定义计算机视觉性能极限,多项基准测试刷新或逼近最佳记录!

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第1张

NASA更是将DINOv3应用于火星探索,科技实力直逼天际!

正当众人以为Meta在AI竞赛中落败之际,DINOv3的横空出世令人刮目相看。

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第2张

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第3张

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第4张

Meta此番真乃慷慨之举:DINOv3不仅适用于商业用途,更将完整的预训练主干网络、适配器、训练与评估代码等「全流程」开源。

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第5张

项目地址:https://github.com/facebookresearch/dinov3

全部checkpoint:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e310...

DINOv3亮点包括:

SSL支持无需标签的含17亿张图像、70亿参数模型训练,特别适用于标注资源稀缺的场景,包括卫星图像。

生成高分辨率特征,并在密集预测任务上实现顶尖性能。

支持多样化的视觉任务和领域应用,均使用冻结主干(无需微调)。

包含蒸馏后的小模型(ViT-B、ViT-L和ConvNeXt 变体),便于灵活部署。

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第6张

自监督学习再攀高峰

自监督学习无需人工标注即可独立学习,已成为现代机器学习领域的领军范式。

大语言模型的崛起正是得益于此:通过海量文本语料库进行预训练以获取通用表征。然而,计算机视觉领域的进展一度滞后,因为最强大的图像编码模型仍严重依赖人工生成的元数据,如网络图片标题。

DINOv3彻底改变这一现状:

DINOv3创新了无监督学习技术,极大减少了训练所需时间和资源。

这种免标注方法特别适用于标注稀缺、成本高昂或无法获取标注的场景。例如,卫星影像预训练的DINOv3骨干网络在树冠高度估计等下游任务中表现卓越。

DINOv3不仅能加速现有应用的发展,还可能解锁全新应用场景,推动医疗保健、环境监测、自动驾驶、零售、制造等行业进步,实现更精准、高效的大规模视觉理解。

史无前例:自监督学习超越弱监督

DINOv3再次刷新里程碑——首次证明自监督学习(SSL)模型在广泛任务中超越弱监督模型。

DINOv3继承DINO算法,无需任何元数据输入,且训练算力仅为以往方法的一小部分,却能产出极其强大的视觉基础模型。

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第7张

在竞争激烈的下游任务(如冻结权重条件下的目标检测)中,DINOv3也取得当前最优表现。

Meta DINOv3:自监督学习引领视觉全能新纪元 自监督学习 DINOv3 视觉模型 开源 第8张

高效Scaling无需微调

相较于前代DINOv2,DINOv3在规模上实现了大幅提升:

模型参数扩大7倍,训练数据量提升12倍。

为了验证其多样性,Meta团队在15项不同的视觉任务和超过6...展开全文查看更多...