当前位置：首页 > 科技资讯 > 正文

视觉拼图后训练：解锁多模态大模型视觉理解新潜力

在大数据与人工智能的浪潮中，后训练阶段成为提升模型推理与通用能力的关键。然而，现有方法大多以文本为中心，忽略了视觉信息的潜力。我们提出重新审视视觉自监督学习，设计以视觉为中心的后训练任务，以加强多模态大模型对视觉信息的细粒度理解。

南洋理工大学MMLab的最新研究《Visual Jigsaw Post-Training Improves MLLMs》提出一种新的后训练方法——Visual Jigsaw，通过强化学习算法GRPO优化模型对视觉信息的排序与重建。

视觉拼图后训练：解锁多模态大模型视觉理解新潜力视觉自监督学习多模态大模型后训练细粒度理解第1张

Visual Jigsaw 方法概述

视觉拼图后训练：解锁多模态大模型视觉理解新潜力视觉自监督学习多模态大模型后训练细粒度理解第2张

Visual Jigsaw是一种通用的视觉信息排序重建任务。它将视觉数据划分为子元素，模型需重构这些信息并预测正确顺序。通过强化学习算法，模型能在不依赖额外标注的情况下，增强自身的视觉感知与理解能力。该任务在图片、视频和3D三种模态下均有效。

设计了分级奖励机制：完全正确预测奖励为1；部分正确则按比例奖励并乘折扣系数；无效排列则奖励为0。

针对不同视觉模态，设计了具体的Visual Jigsaw任务：

Image Jigsaw：图片被划分为相同大小的子图，模型需恢复其正确顺序。

Video Jigsaw：视频被分割为等长片段，模型需重建时间顺序。

3D Jigsaw：从RGB-D图像中采样深度点，模型需恢复深度次序。

在多种图像、视频和3D模态上验证了Visual Jigsaw的有效性：

Image Jigsaw

视觉拼图后训练：解锁多模态大模型视觉理解新潜力视觉自监督学习多模态大模型后训练细粒度理解第3张

经过Image Jigsaw训练，模型在三类视觉理解基准上均有显著提升，包括细粒度感知、空间感知和组合式视觉理解。

Video Jigsaw

视觉拼图后训练：解锁多模态大模型视觉理解新潜力视觉自监督学习多模态大模型后训练细粒度理解第4张

Video Jigsaw训练后，模型在视频理解基准上表现稳定提升，尤其在需要时间推理的任务上提升显著。CVBench上的提升验证了模型在跨视频理解与推理上的增强。

3D Jigsaw

视觉拼图后训练：解锁多模态大模型视觉理解新潜力视觉自监督学习多模态大模型后训练细粒度理解第5张

经过3D Jigsaw训练，模型在各类3D基准任务上均有所提升，尤其在深度估计任务上表现突出。这显示了该方法不仅增强了模型的深度排序能力，也提升了其整体三维空间感知与推理能力。

Visual Jigsaw为MLLMs的视觉感知注入新活力，展示了一种轻量、可验证、无需标注的自监督后训练范式。我们期望这一工作能启发更多聚焦视觉信息的自/弱监督任务，推动多模态大模型的发展。

本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542732.html