当前位置:首页 > 科技资讯 > 正文

视觉拼图后训练:解锁多模态大模型视觉理解新潜力

在大数据与人工智能的浪潮中,后训练阶段成为提升模型推理与通用能力的关键。然而,现有方法大多以文本为中心,忽略了视觉信息的潜力。我们提出重新审视视觉自监督学习,设计以视觉为中心的后训练任务,以加强多模态大模型对视觉信息的细粒度理解。

南洋理工大学MMLab的最新研究《Visual Jigsaw Post-Training Improves MLLMs》提出一种新的后训练方法——Visual Jigsaw,通过强化学习算法GRPO优化模型对视觉信息的排序与重建。

视觉拼图后训练:解锁多模态大模型视觉理解新潜力 视觉自监督学习 多模态大模型 后训练 细粒度理解 第1张

Visual Jigsaw 方法概述

视觉拼图后训练:解锁多模态大模型视觉理解新潜力 视觉自监督学习 多模态大模型 后训练 细粒度理解 第2张

Visual Jigsaw是一种通用的视觉信息排序重建任务。它将视觉数据划分为子元素,模型需重构这些信息并预测正确顺序。通过强化学习算法,模型能在不依赖额外标注的情况下,增强自身的视觉感知与理解能力。该任务在图片、视频和3D三种模态下均有效。

设计了分级奖励机制:完全正确预测奖励为1;部分正确则按比例奖励并乘折扣系数;无效排列则奖励为0。

针对不同视觉模态,设计了具体的Visual Jigsaw任务:

Image Jigsaw:图片被划分为相同大小的子图,模型需恢复其正确顺序。

Video Jigsaw:视频被分割为等长片段,模型需重建时间顺序。

3D Jigsaw:从RGB-D图像中采样深度点,模型需恢复深度次序。

实验结果

在多种图像、视频和3D模态上验证了Visual Jigsaw的有效性:

Image Jigsaw

视觉拼图后训练:解锁多模态大模型视觉理解新潜力 视觉自监督学习 多模态大模型 后训练 细粒度理解 第3张

经过Image Jigsaw训练,模型在三类视觉理解基准上均有显著提升,包括细粒度感知、空间感知和组合式视觉理解。

Video Jigsaw

视觉拼图后训练:解锁多模态大模型视觉理解新潜力 视觉自监督学习 多模态大模型 后训练 细粒度理解 第4张

Video Jigsaw训练后,模型在视频理解基准上表现稳定提升,尤其在需要时间推理的任务上提升显著。CVBench上的提升验证了模型在跨视频理解与推理上的增强。

3D Jigsaw

视觉拼图后训练:解锁多模态大模型视觉理解新潜力 视觉自监督学习 多模态大模型 后训练 细粒度理解 第5张

经过3D Jigsaw训练,模型在各类3D基准任务上均有所提升,尤其在深度估计任务上表现突出。这显示了该方法不仅增强了模型的深度排序能力,也提升了其整体三维空间感知与推理能力。

结语

Visual Jigsaw为MLLMs的视觉感知注入新活力,展示了一种轻量、可验证、无需标注的自监督后训练范式。我们期望这一工作能启发更多聚焦视觉信息的自/弱监督任务,推动多模态大模型的发展。

论文链接

项目主页

数据和模型HF链接

代码仓库链接