当前位置:首页 > 科技资讯 > 正文

双维度特征对齐提升多模态模型对抗攻击

近年来,多模态大语言模型(MLLMs)在多个任务上展现出强大的能力,但其潜在的安全风险也引起了广泛关注。研究表明,这些模型容易受到对抗样本的欺骗,导致错误输出或敏感信息泄露。

为了应对这一挑战,本文提出了一种名为FOA-Attack的对抗攻击框架,通过同时实现全局和局部特征的最优对齐,显著提升攻击的迁移能力。在全局层面,利用余弦相似度损失对齐粗粒度的全局特征;在局部层面,则创新性地使用聚类技术提取关键局部特征模式,并通过最优传输技术实现细粒度对齐。

此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应地平衡多个模型的影响,进一步增强攻击的迁移性。实验表明,FOA-Attack在攻击各种开源及闭源MLLMs时,性能全面超越了现有方法,尤其是在针对商业闭源模型的攻击上取得了显著成功。

双维度特征对齐提升多模态模型对抗攻击 多模态大语言模型 对抗攻击 特征对齐 迁移性 第1张

研究背景

多模态大语言模型(MLLMs)在图像理解等任务上表现非凡,但也继承了视觉编码器的脆弱性。对抗样本通过微小扰动即可诱导模型产生错误输出。对于无法访问模型内部结构和参数的黑盒场景,实现高效的目标迁移攻击极具挑战性。

动机和理论分析

现有对抗攻击方法通常仅关注全局特征对齐,忽略了局部特征的重要性。这导致语义对齐不充分且迁移性差。FOA-Attack提出“全局+局部”双维度对齐思路,通过同时优化全局和局部特征对齐,解决了这一问题。

双维度特征对齐提升多模态模型对抗攻击 多模态大语言模型 对抗攻击 特征对齐 迁移性 第2张

方法

FOA-Attack通过三个模块构建攻击框架:全局粗粒度特征对齐模块确保整体语义一致;局部细粒度特征对齐模块通过聚类+最优传输策略实现精准对齐;动态集成模型权重模块解决传统多模型集成易偏科的问题。

实验效果

开源模型

双维度特征对齐提升多模态模型对抗攻击 多模态大语言模型 对抗攻击 特征对齐 迁移性 第3张

FOA-Attack在开源模型上的攻击成功率和语义相似度均显著高于其他方法。

闭源模型

双维度特征对齐提升多模态模型对抗攻击 多模态大语言模型 对抗攻击 特征对齐 迁移性 第4张

FOA-Attack在商业闭源模型上的表现尤为突出,特别是在GPT-4o上的ASR达到75.1%。

可视化

双维度特征对齐提升多模态模型对抗攻击 多模态大语言模型 对抗攻击 特征对齐 迁移性 第5张

图3展示了原始干净图像、对抗图像和扰动图像的可视化效果。

结语

FOA-Attack通过精细对齐全局与局部特征,并动态平衡多模型集成,显著提升了目标式对抗样本对闭源MLLMs的迁移性。该研究不仅揭示了当前MLLMs的脆弱面,也为防御方向提供了新的思路。

目前,论文与代码已公开,欢迎感兴趣的研究者阅读、复现及深入讨论。

作者介绍

本文作者来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校(UIUC)。第一作者加小俊为新加坡南洋理工大学博士后。