当前位置:首页 > 科技资讯 > 正文

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式

在当前多模态大模型的后训练发展浪潮中,由强化学习驱动的训练范式已经成为了增强模型推理能力与通用性能的关键方向。

然而,大多数现有方法仍然以文本为中心,视觉部分往往被动地作为辅助信号输入。相比之下,我们认为在后训练阶段重新审视视觉自监督学习的潜力,并设计以视觉为中心的后训练策略,对于深化多模态大模型对视觉信息本身的细粒度理解同样至关重要。

为此,来自MMLab@南洋理工大学的最新论文《Visual Jigsaw Post-Training Improves MLLMs》提出了一种全新的多模态大模型后训练任务——Visual Jigsaw

该方法将经典的自监督拼图任务重新设计为后训练阶段的核心目标,使模型在不依赖额外标注、也无需视觉生成模块的情况下,显式地强化自身的视觉感知与理解能力。该方法在图片、视频和3D三种视觉模态下均验证了其有效性。

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式 多模态大模型 视觉自监督学习 后训练 Jigsaw 第1张

Visual Jigsaw 方法简介

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式 多模态大模型 视觉自监督学习 后训练 Jigsaw 第2张

Visual Jigsaw可以被视为一类通用的视觉信息排序与重建任务。给定某种视觉模态的数据(例如图片、视频或3D数据),首先对其进行特定划分并随机打乱顺序,从而获得一组子元素作为拼图块。模型的目标是重构原始视觉信息,预测出正确的顺序,并以文字形式输出对应的排列顺序。整个训练过程采用强化学习算法GRPO进行优化。

Visual Jigsaw具有对应的真实顺序(GT)可用于直接验证,研究团队设计了一个分级奖励机制:当预测完全正确时奖励为1;若部分位置正确,则按照正确比例给予奖励,并乘以一个折扣系数以防止模型过度依赖部分匹配;如果输出不是有效的排列,则奖励为0。

针对不同的视觉模态,具体的Visual Jigsaw任务设计如下:

Image Jigsaw:图片在2D空间上被划分为多个相同大小的子图,打乱后模型需要恢复正确的空间顺序。

Video Jigsaw:视频在时间维度上被分割成等长的视频片段,模型需重建原始的时间顺序。

3D Jigsaw:从RGB-D图像中采样多个深度点,在图片中标注对应点的位置和打乱后的序号,要求模型恢复由近到远的深度次序。

实验结果

通过在多种图像、视频和3D模态上分别验证,Visual Jigsaw均表现出显著的有效性:

Image Jigsaw

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式 多模态大模型 视觉自监督学习 后训练 Jigsaw 第3张

经过Image Jigsaw训练后,模型在三类以视觉为中心的基准测试中均实现了稳定提升:1)细粒度感知与理解,2)基于单目图像的空间感知和理解,3)组合式视觉理解与推理。

结果表明,在多模态大模型中引入Image Jigsaw后训练,能显著增强其感知能力和细粒度视觉理解能力,而这正是现有以推理为主的后训练策略所欠缺的。

这种提升源于拼图任务本身的要求——模型必须关注局部patch的细节、推理整体空间布局,并理解不同patch之间的关系,从而直接促进了细粒度、空间和组合式的理解能力。

Video Jigsaw

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式 多模态大模型 视觉自监督学习 后训练 Jigsaw 第4张

经过Video Jigsaw训练,模型在各类通用视频理解基准上均表现出稳定的性能提升。该方法整体上增强了模型对视频的感知与理解,特别是在需要时间维度推理和时间方向性理解的任务(如AoTBench)上提升尤为显著。

同时,在CVBench上的大幅度提升也验证了模型在跨视频理解与推理上的增强。这表明,视频拼图任务能够促使模型更好地捕捉时间连续性、理解视频片段间的关联、推理方向一致性,并最终提升对视频的整体和通用理解能力。

3D Jigsaw

Visual Jigsaw:提升多模态大模型视觉理解的后训练新范式 多模态大模型 视觉自监督学习 后训练 Jigsaw 第5张

经过3D Jigsaw训练,模型在各类3D基准任务上都取得了显著提升。最突出的提升出现在与深度估计直接相关的DA-2K数据集上,这直接体现了深度排序预训练任务的效果。但更重要的是,在广泛的其他任务上也观察到了一致的提升,包括单视角基准(如3DSRBench、OmniSpatial)、多视角基准(如ViewSpatial、All-Angles),以及第一人称视频基准(如VSI-Bench)。这些结果表明,该方法不仅让模型掌握了深度排序这一特定技能,同时也有效增强了其整体的三维空间感知与推理能力。

结语

Visual Jigsaw提供了一种以视觉为中心的轻量级、可验证、无需标注的新型自监督后训练范式,为多模态大模型(MLLMs)的视觉感知注入了全新活力。研究团队希望这一工作不仅展示了视觉拼图任务的潜力,更能启发学界设计更多聚焦视觉信息本身的自监督或弱监督任务,从而使多模态大模型能够更深入地感知和理解各类视觉信息。

论文链接:https://arxiv.org/abs/2509.25190

项目主页:https://penghao-wu.github.io/visual_jigsaw/

数据和模型HF链接:https://huggingface.co/collections/craigwu/visual-jigsaw-68d92d6aca580f3dc7e3cf36

代码仓库链接:https://github.com/penghao-wu/visual_jigsaw