近年来,多模态大语言模型(MLLMs)在多个任务上展现出强大的能力,但其潜在的安全风险也引起了广泛关注。研究表明,这些模型容易受到对抗样本的欺骗,导致错误输出或敏感信息泄露。
为了应对这一挑战,本文提出了一种名为FOA-Attack的对抗攻击框架,通过同时实现全局和局部特征的最优对齐,显著提升攻击的迁移能力。在全局层面,利用余弦相似度损失对齐粗粒度的全局特征;在局部层面,则创新性地使用聚类技术提取关键局部特征模式,并通过最优传输技术实现细粒度对齐。
此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应地平衡多个模型的影响,进一步增强攻击的迁移性。实验表明,FOA-Attack在攻击各种开源及闭源MLLMs时,性能全面超越了现有方法,尤其是在针对商业闭源模型的攻击上取得了显著成功。
多模态大语言模型(MLLMs)在图像理解等任务上表现非凡,但也继承了视觉编码器的脆弱性。对抗样本通过微小扰动即可诱导模型产生错误输出。对于无法访问模型内部结构和参数的黑盒场景,实现高效的目标迁移攻击极具挑战性。
现有对抗攻击方法通常仅关注全局特征对齐,忽略了局部特征的重要性。这导致语义对齐不充分且迁移性差。FOA-Attack提出“全局+局部”双维度对齐思路,通过同时优化全局和局部特征对齐,解决了这一问题。
FOA-Attack通过三个模块构建攻击框架:全局粗粒度特征对齐模块确保整体语义一致;局部细粒度特征对齐模块通过聚类+最优传输策略实现精准对齐;动态集成模型权重模块解决传统多模型集成易偏科的问题。
FOA-Attack在开源模型上的攻击成功率和语义相似度均显著高于其他方法。
FOA-Attack在商业闭源模型上的表现尤为突出,特别是在GPT-4o上的ASR达到75.1%。
图3展示了原始干净图像、对抗图像和扰动图像的可视化效果。
FOA-Attack通过精细对齐全局与局部特征,并动态平衡多模型集成,显著提升了目标式对抗样本对闭源MLLMs的迁移性。该研究不仅揭示了当前MLLMs的脆弱面,也为防御方向提供了新的思路。
目前,论文与代码已公开,欢迎感兴趣的研究者阅读、复现及深入讨论。
作者介绍
本文作者来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校(UIUC)。第一作者加小俊为新加坡南洋理工大学博士后。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542859.html