在大数据与人工智能的浪潮中,后训练阶段成为提升模型推理与通用能力的关键。然而,现有方法大多以文本为中心,忽略了视觉信息的潜力。我们提出重新审视视觉自监督学习,设计以视觉为中心的后训练任务,以加强多模态大模型对视觉信息的细粒度理解。
南洋理工大学MMLab的最新研究《Visual Jigsaw Post-Training Improves MLLMs》提出一种新的后训练方法——Visual Jigsaw,通过强化学习算法GRPO优化模型对视觉信息的排序与重建。
Visual Jigsaw是一种通用的视觉信息排序重建任务。它将视觉数据划分为子元素,模型需重构这些信息并预测正确顺序。通过强化学习算法,模型能在不依赖额外标注的情况下,增强自身的视觉感知与理解能力。该任务在图片、视频和3D三种模态下均有效。
设计了分级奖励机制:完全正确预测奖励为1;部分正确则按比例奖励并乘折扣系数;无效排列则奖励为0。
针对不同视觉模态,设计了具体的Visual Jigsaw任务:
Image Jigsaw:图片被划分为相同大小的子图,模型需恢复其正确顺序。
Video Jigsaw:视频被分割为等长片段,模型需重建时间顺序。
3D Jigsaw:从RGB-D图像中采样深度点,模型需恢复深度次序。
在多种图像、视频和3D模态上验证了Visual Jigsaw的有效性:
Image Jigsaw
经过Image Jigsaw训练,模型在三类视觉理解基准上均有显著提升,包括细粒度感知、空间感知和组合式视觉理解。
Video Jigsaw
Video Jigsaw训练后,模型在视频理解基准上表现稳定提升,尤其在需要时间推理的任务上提升显著。CVBench上的提升验证了模型在跨视频理解与推理上的增强。
3D Jigsaw
经过3D Jigsaw训练,模型在各类3D基准任务上均有所提升,尤其在深度估计任务上表现突出。这显示了该方法不仅增强了模型的深度排序能力,也提升了其整体三维空间感知与推理能力。
Visual Jigsaw为MLLMs的视觉感知注入新活力,展示了一种轻量、可验证、无需标注的自监督后训练范式。我们期望这一工作能启发更多聚焦视觉信息的自/弱监督任务,推动多模态大模型的发展。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542732.html