当前位置：首页 > 科技资讯 > 正文

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率

主机测评网
科技资讯
2026-04-04
678

揭秘VLM结构性偏置：Attention机制在多模态任务中真的可靠吗？

近年来，视觉语言模型（Vision-Language Models, VLMs）在多模态理解领域异军突起，特别是在视觉问答、图像解析及视频分析等核心任务中表现出色。为了优化推理性能并降低计算开销，业界普遍采用language-to-vision attention（语言到视觉的注意力机制）来评估视觉Token的重要性，并以此为依据进行Token剪枝（Visual Token Pruning）。

然而，一个长期被科研界忽视的底层问题逐渐浮出水面：Attention机制本身是否具备足够的可靠性，能够精准映射“语义重要性”？

上海大学曾丹团队在最新的研究工作中，对主流VLM的注意力行为模式进行了深度剖析。研究发现，Attention的分布并非仅由语义相关性决定，而是深受结构性偏置（Structural Bias）的影响。若直接沿用这些带有偏置的权重进行视觉剪枝，会导致模型误删关键语义区域，反而保留大量无关背景，从而损害模型性能。

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第1张

Attention的两大核心偏置陷阱

1. 位置偏置（Recency Bias）：序列后端的Token更受宠？

通过对海量样本的统计建模，研究团队揭示了一个惊人的现象：语言到视觉的注意力权重与视觉Token在序列中的位置呈明显的单调递增关系。这意味着，VLM天然倾向于关注序列末尾的视觉Token。

在图像处理中，这种位置偏置直接导致模型对图像底部区域表现出过度的“偏爱”。如可视化曲线所示，这种偏好完全独立于图像的实际语义内容，纯粹是由模型架构的固有特性驱动的。

更棘手的是，在执行视觉剪枝时，这种位置偏置会被呈几何倍数放大，使得剪枝算法系统性地误留“位置靠后但无意义”的冗余Token。

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第2张

2. Padding Attention Sink：空白区域的虚假高权重

除了显性的位置偏置，研究还发现了一个隐蔽的问题——Padding区域的注意力汇聚（Attention Sink）。在多模态输入中，为了统一尺寸，Padding操作不可或缺。尽管Padding区域不含任何有效信息，但在许多VLM中，这些区域的视觉Token却获得了异常高的Attention权重。

研究指出，其根本原因在于隐藏状态（Hidden States）中出现了极端的激活值，诱发了Attention Sink效应。这会直接干扰基于Attention的排序策略，诱导模型错误地将空白背景视为“重要区域”予以保留。

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第3张

核心突破：引入Attention去偏策略（Debiasing）

面对上述挑战，上海大学曾丹团队另辟蹊径，并未试图重新设计剪枝算法或引入复杂的训练过程，而是回归本质：对原始Attention权重进行修正与去偏。

团队发现，这些偏置并非随机分布，而是具备稳定的统计规律。因此，研究人员通过拟合Attention随位置变化的整体趋势，构建了显式的位置偏置模型。利用该模型对原始Attention进行动态修正，可以有效剥离位置因素的影响，使注意力权重真正回归到内容语义的表达上。

针对Padding区域，该方案在推理阶段引入了显式的抑制机制，消除了Attention Sink对Token重要性评估的干扰。该方法无需模型微调或重训，完全兼容现有VLM架构，实现了高效的即插即用。

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第4张

实验验证：更稳健的性能提升

在系统性的实验验证中，该去偏策略被集成至6种主流的视觉Token剪枝基准方法中，并在参数量为7B和13B的多种VLM模型上进行了广泛测试。测试场景涵盖了10项图像理解任务和3项视频理解任务。

实验数据一致表明：经过Attention去偏修正后，剪枝模型的综合性能得到了显著且稳定的提升。尤其在极高压缩比（即大幅减少Token数量）的情况下，该策略展现出了极强的鲁棒性，有效保留了任务相关的核心视觉信息。

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第5张

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率视觉语言模型 Attention去偏视觉Token剪枝多模态理解结构性偏置第6张

总结与展望

本项研究深刻揭示了Attention并非等同于语义重要性这一行业误区。在Vision-Language Models的落地应用中，忽视结构性偏置将直接导致模型评估失准。

上海大学曾丹团队提出的去偏修正方案，以极低的推理成本显著增强了视觉Token剪枝的可靠性。这不仅为多模态大模型的高效部署提供了新路径，也为未来更具鲁棒性的Attention机制设计提供了宝贵的理论支撑。

论文地址: https://arxiv.org/abs/2508.17807

代码开源: https://github.com/intcomp/attention-bias

作者团队：上海大学曾丹教授团队联合南开大学程明明教授团队（Kai Zhao, Wubang Yuan, Yuchen Lin, Liting Ruan, Xiaofeng Lu, Deng-Ping Fan, Ming-Ming Cheng, Dan Zeng）。

服务器教程阿里云服务器

本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433877.html

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率

Attention的两大核心偏置陷阱

1. 位置偏置（Recency Bias）：序列后端的Token更受宠？

2. Padding Attention Sink：空白区域的虚假高权重

核心突破：引入Attention去偏策略（Debiasing）

实验验证：更稳健的性能提升

总结与展望

Ubuntu 22.04 安装 Docker & Docker Compose 最新最简单完整指南 (小白必看手把手教程)

2026年航天新纪元：黄景瑜300万“船票”开启商业航天万亿黄金时代

揭秘VLM结构性偏置：上海大学曾丹团队提出Attention去偏方案，显著提升多模态剪枝效率

Attention的两大核心偏置陷阱

1. 位置偏置（Recency Bias）：序列后端的Token更受宠？

2. Padding Attention Sink：空白区域的虚假高权重

核心突破：引入Attention去偏策略（Debiasing）

实验验证：更稳健的性能提升

总结与展望

Ubuntu 22.04 安装 Docker & Docker Compose 最新最简单完整指南 (小白必看手把手教程)

2026年航天新纪元：黄景瑜300万“船票”开启商业航天万亿黄金时代

相关文章