当前位置：首页 > 科技资讯 > 正文

提升VLM部署效率：上海大学团队揭示Attention偏置并提出无损去偏策略

主机测评网
科技资讯
2026-04-06
968

【导读】研究发现，传统Attention机制在视觉语言模型中常伴随位置偏置与Padding异常，显著削弱了剪枝算法的精准度。上海大学曾丹教授团队近日提出一种创新的、无需重训的Attention去偏框架，不仅大幅提升了模型在极低资源下的运行稳定性，也为VLMs向移动端与边缘侧的迁移部署开辟了新路径。

当前，视觉—语言模型（Vision-Language Models, VLMs）在多模态理解领域展现出惊人潜力，已成为迈向通用人工智能（AGI）的关键阶梯。

然而，这些大模型在实际落地时往往面临推理开销过大、响应速度迟缓等瓶颈。为优化效率，学术界普遍采用视觉Token剪枝（Visual Token Pruning）策略，即通过Attention机制评估并保留关键视觉信息，以剔除冗余计算。

近日，上海大学曾丹团队联合南开大学研究者，从Attention的底层可靠性切入，深度剖析了VLMs中广泛存在的注意力偏置现象。他们提出了一种无需微调或重新训练的“插件式”去偏方法，在多种主流模型及海量图像、视频基准测试中表现卓越，为实现多模态模型的高效、稳健部署提供了重要理论支撑。

提升VLM部署效率：上海大学团队揭示Attention偏置并提出无损去偏策略视觉语言模型 Attention去偏视觉Token剪枝边缘计算第1张

代码开源地址：https://github.com/intcomp/attention-bias
学术论文链接：https://arxiv.org/abs/2508.17807

核心研究价值

虽然VLMs在视觉问答和多模态对话中表现优异，但其庞大的参数量导致推理成本极高。为了实现“降本增效”，研究者通常利用Attention权重作为“重要性蓝图”，以此决定哪些视觉Token该被保留，哪些该被剔除。

然而，上海大学的研究指出：Attention权重并非绝对可靠的“语义指标”。

在多模态架构中，Attention往往受到非语义层面的结构性偏置干扰。这些偏置与图像真实含义无关，却会错误地主导剪枝决策，进而导致模型性能在压缩过程中剧烈下滑。

针对这一痛点，该团队系统性地归纳了Attention的行为规律，并研发出一种Attention Debiasing（注意力去偏）技术。该技术无需改动模型权重，即可显著增强现有剪枝策略的精准度与鲁棒性。

实验证明，将该方法嵌入现有主流剪枝算法后，各模型在保持高效的同时，理解能力均得到了显著回升。

提升VLM部署效率：上海大学团队揭示Attention偏置并提出无损去偏策略视觉语言模型 Attention去偏视觉Token剪枝边缘计算第2张

深度背景剖析

直观上，Attention权重代表了模型对特定区域的关注程度。但在实际应用中，这种关注往往被“结构性噪声”所蒙蔽。

研究团队发现了两类最致命的偏置现象：

首先是位置近因偏置（Recency Bias）。研究观测到，模型在处理视觉序列时，注意力往往随Token位置的靠后而递增。这导致模型倾向于给图像底部的区域分配更高权重，即便该区域只是无关紧要的背景。

提升VLM部署效率：上海大学团队揭示Attention偏置并提出无损去偏策略视觉语言模型 Attention去偏视觉Token剪枝边缘计算第3张

其次是填充符引起的注意力陷阱（Padding-induced Attention Sink）。为了适配输入规范，图像边缘常伴随Padding区域。这些无语义的空白区域往往伴随着异常的Hidden State激活值，导致Attention被错误地吸引并锁定在这些“无效区域”，造成计算资源的巨大浪费。

提升VLM部署效率：上海大学团队揭示Attention偏置并提出无损去偏策略视觉语言模型 Attention去偏视觉Token剪枝边缘计算第4张