当前位置:首页 > 科技资讯 > 正文

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略

【导读】研究发现,传统Attention机制在视觉语言模型中常伴随位置偏置与Padding异常,显著削弱了剪枝算法的精准度。上海大学曾丹教授团队近日提出一种创新的、无需重训的Attention去偏框架,不仅大幅提升了模型在极低资源下的运行稳定性,也为VLMs向移动端与边缘侧的迁移部署开辟了新路径。

当前,视觉—语言模型(Vision-Language Models, VLMs)在多模态理解领域展现出惊人潜力,已成为迈向通用人工智能(AGI)的关键阶梯。

然而,这些大模型在实际落地时往往面临推理开销过大、响应速度迟缓等瓶颈。为优化效率,学术界普遍采用视觉Token剪枝(Visual Token Pruning)策略,即通过Attention机制评估并保留关键视觉信息,以剔除冗余计算。

近日,上海大学曾丹团队联合南开大学研究者,从Attention的底层可靠性切入,深度剖析了VLMs中广泛存在的注意力偏置现象。他们提出了一种无需微调或重新训练的“插件式”去偏方法,在多种主流模型及海量图像、视频基准测试中表现卓越,为实现多模态模型的高效、稳健部署提供了重要理论支撑。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第1张

  • 代码开源地址:https://github.com/intcomp/attention-bias
  • 学术论文链接:https://arxiv.org/abs/2508.17807

核心研究价值

虽然VLMs在视觉问答和多模态对话中表现优异,但其庞大的参数量导致推理成本极高。为了实现“降本增效”,研究者通常利用Attention权重作为“重要性蓝图”,以此决定哪些视觉Token该被保留,哪些该被剔除。

然而,上海大学的研究指出:Attention权重并非绝对可靠的“语义指标”。

在多模态架构中,Attention往往受到非语义层面的结构性偏置干扰。这些偏置与图像真实含义无关,却会错误地主导剪枝决策,进而导致模型性能在压缩过程中剧烈下滑。

针对这一痛点,该团队系统性地归纳了Attention的行为规律,并研发出一种Attention Debiasing(注意力去偏)技术。该技术无需改动模型权重,即可显著增强现有剪枝策略的精准度与鲁棒性。

实验证明,将该方法嵌入现有主流剪枝算法后,各模型在保持高效的同时,理解能力均得到了显著回升。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第2张

深度背景剖析

直观上,Attention权重代表了模型对特定区域的关注程度。但在实际应用中,这种关注往往被“结构性噪声”所蒙蔽。

研究团队发现了两类最致命的偏置现象:

首先是位置近因偏置(Recency Bias)。研究观测到,模型在处理视觉序列时,注意力往往随Token位置的靠后而递增。这导致模型倾向于给图像底部的区域分配更高权重,即便该区域只是无关紧要的背景。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第3张

其次是填充符引起的注意力陷阱(Padding-induced Attention Sink)。为了适配输入规范,图像边缘常伴随Padding区域。这些无语义的空白区域往往伴随着异常的Hidden State激活值,导致Attention被错误地吸引并锁定在这些“无效区域”,造成计算资源的巨大浪费。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第4张

一旦这些偏置进入剪枝环节,原本的错误就会被级数放大,最终导致模型“南辕北辙”,丢失了真正的语义核心。

技术实现路径

曾丹团队并未选择高成本的“重新训练”方案,而是提出了一种精巧的Attention修复策略:既然偏置是有规律的,那就可以通过数学手段将其“过滤”掉。

团队发现位置偏置遵循稳定的数学趋势,因此通过拟合一条位置偏置曲线,从原始权重中显式扣除与内容无关的位置分量,还原Attention的真实面貌。如下图所示,修正后的热力图更精准地指向了物体中心。

同时,在剪枝逻辑中引入了对Padding区域的硬性抑制,确保语义真空区不会干扰排序。这种方法具备极强的普适性,可以作为即插即用模块与现有任何基于Attention的算法结合。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第5张

实验评估与产业愿景

在严苛的实验环境中,该方案被集成至FastV、SparseVLM、iLLaVA等6种主流剪枝框架,针对LLaVA-7B/13B等模型进行了深度测试。评估涵盖了10项图像理解与3项视频理解基准任务。

数据表明,在各种剪枝率下,去偏后的模型性能均实现了稳步增长。尤其是在极端剪枝(即仅保留极少量Token)的情况下,去偏技术的优势愈发明显。这证明了该方法能显著提升模型在“信息受限”极端环境下的生存能力。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第6张

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第7张

可视化结果直观展示了去偏的力量:原本容易被忽视的微小目标和关键文本区域,在修正后被精准捕捉,而原本占据大量注意力的图像边缘和背景则被有效过滤。这一发现对于VLMs在自动驾驶、智能家居、实时移动翻译等领域的应用具有深远影响。

提升VLM部署效率:上海大学团队揭示Attention偏置并提出无损去偏策略 视觉语言模型  Attention去偏 视觉Token剪枝 边缘计算 第8张

总结

本研究向业界传递了一个核心观点:Attention不等于语义。在多模态理解的语境下,必须剔除结构性偏置的“滤镜”,才能释放模型真正的效能。上海大学曾丹团队的这一突破,在不增加训练成本的前提下,实现了模型轻量化与可靠性的双赢。

参考资料:

https://arxiv.org/abs/2508.17807