当前位置:首页 > 科技资讯 > 正文

Robust-R1:从隐式到显式,开启视觉退化感知新篇章

【导读】多模态大语言模型(MLLMs)在AI视觉理解中扮演着核心角色,然而,在真实世界中的视觉退化(如模糊、噪声、遮挡等)下,其性能却常常遭受挑战。近日,Robust-R1,一篇被AAAI 2026接收为Oral的论文,给出了革命性的解决方案:来自香港科技大学、西北工业大学等团队的科学家首次跳出“隐式适应”的思维框架,将视觉退化问题转化为显式结构化推理任务,使模型不仅能“抗干扰”,更能“诊干扰”,实现了质量与鲁棒性的双重突破。

当多模态大模型(MLLMs)从实验室走向真实世界,它们面临着一个致命瓶颈:视觉退化。无论是雨滴斑驳的车窗、年代久远的监控录像,还是网络压缩的低质图片、医疗影像的固有噪声,这些无处不在的视觉退化足以让最先进的GPT-4V、Qwen-VL等模型产生荒谬输出,成为其在自动驾驶、医疗影像、安防监控等关键领域落地的“阿喀琉斯之踵”。

现有方法的困境在于“隐式适应”,即通过对抗训练、数据增强等手段,试图让模型“硬扛”干扰。这如同给模型戴上更厚的滤镜——治标不治本,且不可解释。模型在特定退化上表现提升,却无法理解退化本身,更无法泛化到未知干扰,其决策过程仍是黑箱。

今天,这一困局迎来范式级的突破。香港科技大学、西北工业大学等团队提出的Robust-R1,实现了从“抵抗干扰”到“理解干扰”的范式转变,首次将退化感知提升为一种显式的结构化推理能力,让视觉大模型学会“自我诊断”。

Robust-R1:从隐式到显式,开启视觉退化感知新篇章 多模态大语言模型 视觉退化 Robust-R1 显式结构化推理 第1张

论文链接: https://arxiv.org/abs/2512.17532

开源代码: https://github.com/jqtangust/Robust-R1

开源模型: https://huggingface.co/Jiaqi-hkust/Robust-R1

开源数据: https://huggingface.co/datasets/Jiaqi-hkust/Robust-R1

在线Demo: https://huggingface.co/spaces/Jiaqi-hkust/Robust-R1

Robust-R1的核心思想是为视觉大模型构建一套“退化感知推理系统”。面对一张退化图像,模型会主动执行一个三步诊断流程:

  1. 退化参数感知(Perception):模型首先对输入图像进行退化诊断,不仅识别退化类型(如运动模糊、镜头光斑、噪声等),还能量化退化强度。这种量化的退化感知为后续推理提供了精确的输入。 → 此图像存在强度0.47的运动模糊与强度0.31的镜头光斑。
  2. 语义影响分析(Influence Analysis):在识别退化后,模型会分析这些退化如何具体影响图像的语义理解。这一步将抽象的退化参数转化为对视觉理解的具体影响,为模型提供了“知道什么信息不可靠”的认知能力。 → 这些退化导致物体边缘模糊,跑道纹理的连续性特征部分丢失。
  3. 鲁棒结论生成(Robust Conclusion):基于前两步的诊断和分析,模型会调整推理策略,优先依赖未被退化严重影响的视觉线索,并结合上下文信息进行综合判断。 → 尽管存在模糊,但基于剩余的空间结构与上下文,推断飞机位于跑道区域。

这套流程的关键在于“显式化”与“可解释”

与黑箱模型不同,Robust-R1的每一个判断都伴随着完整的推理链条,每一步的思考都以结构化文本呈现,使得模型的决策依据透明、可追溯、可验证。如同一位放射科医生在阅片时,不仅给出诊断,更标注出影响诊断的图像质量因素。这不仅是性能的提升,更是向可信、可靠AI迈出的关键一步。

Robust-R1:从隐式到显式,开启视觉退化感知新篇章 多模态大语言模型 视觉退化 Robust-R1 显式结构化推理 第2张

技术内核:三阶段构建“退化感知推理引擎”