当前位置:首页 > 科技资讯 > 正文

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率

揭秘VLM结构性偏置:Attention机制在多模态任务中真的可靠吗?

近年来,视觉语言模型(Vision-Language Models, VLMs)在多模态理解领域异军突起,特别是在视觉问答、图像解析及视频分析等核心任务中表现出色。为了优化推理性能并降低计算开销,业界普遍采用language-to-vision attention(语言到视觉的注意力机制)来评估视觉Token的重要性,并以此为依据进行Token剪枝(Visual Token Pruning)。

然而,一个长期被科研界忽视的底层问题逐渐浮出水面:Attention机制本身是否具备足够的可靠性,能够精准映射“语义重要性”?

上海大学曾丹团队在最新的研究工作中,对主流VLM的注意力行为模式进行了深度剖析。研究发现,Attention的分布并非仅由语义相关性决定,而是深受结构性偏置(Structural Bias)的影响。若直接沿用这些带有偏置的权重进行视觉剪枝,会导致模型误删关键语义区域,反而保留大量无关背景,从而损害模型性能。

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第1张

Attention的两大核心偏置陷阱

1. 位置偏置(Recency Bias):序列后端的Token更受宠?

通过对海量样本的统计建模,研究团队揭示了一个惊人的现象:语言到视觉的注意力权重与视觉Token在序列中的位置呈明显的单调递增关系。这意味着,VLM天然倾向于关注序列末尾的视觉Token

在图像处理中,这种位置偏置直接导致模型对图像底部区域表现出过度的“偏爱”。如可视化曲线所示,这种偏好完全独立于图像的实际语义内容,纯粹是由模型架构的固有特性驱动的。

更棘手的是,在执行视觉剪枝时,这种位置偏置会被呈几何倍数放大,使得剪枝算法系统性地误留“位置靠后但无意义”的冗余Token。

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第2张

2. Padding Attention Sink:空白区域的虚假高权重

除了显性的位置偏置,研究还发现了一个隐蔽的问题——Padding区域的注意力汇聚(Attention Sink)。在多模态输入中,为了统一尺寸,Padding操作不可或缺。尽管Padding区域不含任何有效信息,但在许多VLM中,这些区域的视觉Token却获得了异常高的Attention权重。

研究指出,其根本原因在于隐藏状态(Hidden States)中出现了极端的激活值,诱发了Attention Sink效应。这会直接干扰基于Attention的排序策略,诱导模型错误地将空白背景视为“重要区域”予以保留。

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第3张

核心突破:引入Attention去偏策略(Debiasing)

面对上述挑战,上海大学曾丹团队另辟蹊径,并未试图重新设计剪枝算法或引入复杂的训练过程,而是回归本质:对原始Attention权重进行修正与去偏

团队发现,这些偏置并非随机分布,而是具备稳定的统计规律。因此,研究人员通过拟合Attention随位置变化的整体趋势,构建了显式的位置偏置模型。利用该模型对原始Attention进行动态修正,可以有效剥离位置因素的影响,使注意力权重真正回归到内容语义的表达上。

针对Padding区域,该方案在推理阶段引入了显式的抑制机制,消除了Attention Sink对Token重要性评估的干扰。该方法无需模型微调或重训,完全兼容现有VLM架构,实现了高效的即插即用。

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第4张

实验验证:更稳健的性能提升

在系统性的实验验证中,该去偏策略被集成至6种主流的视觉Token剪枝基准方法中,并在参数量为7B和13B的多种VLM模型上进行了广泛测试。测试场景涵盖了10项图像理解任务和3项视频理解任务。

实验数据一致表明:经过Attention去偏修正后,剪枝模型的综合性能得到了显著且稳定的提升。尤其在极高压缩比(即大幅减少Token数量)的情况下,该策略展现出了极强的鲁棒性,有效保留了任务相关的核心视觉信息。

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第5张

揭秘VLM结构性偏置:上海大学曾丹团队提出Attention去偏方案,显著提升多模态剪枝效率 视觉语言模型  Attention去偏 视觉Token剪枝 多模态理解 结构性偏置 第6张

总结与展望

本项研究深刻揭示了Attention并非等同于语义重要性这一行业误区。在Vision-Language Models的落地应用中,忽视结构性偏置将直接导致模型评估失准。

上海大学曾丹团队提出的去偏修正方案,以极低的推理成本显著增强了视觉Token剪枝的可靠性。这不仅为多模态大模型的高效部署提供了新路径,也为未来更具鲁棒性的Attention机制设计提供了宝贵的理论支撑。

论文地址: https://arxiv.org/abs/2508.17807

代码开源: https://github.com/intcomp/attention-bias

作者团队:上海大学曾丹教授团队联合南开大学程明明教授团队(Kai Zhao, Wubang Yuan, Yuchen Lin, Liting Ruan, Xiaofeng Lu, Deng-Ping Fan, Ming-Ming Cheng, Dan Zeng)。