当前位置:首页 > 科技资讯 > 正文

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性

近年来,多模态大语言模型(MLLMs)在人工智能领域取得显著进展,于视觉理解、跨模态推理及图像描述等任务中展现出卓越能力。然而,随着这些模型的广泛应用,其潜在安全风险日益受到关注。

研究指出,MLLMs 继承了视觉编码器的对抗脆弱性,易受对抗样本干扰。这些对抗样本在实际应用中可能引发模型错误输出或敏感信息泄露,给大规模部署带来严峻挑战。

在此背景下,提升对抗攻击的迁移性——即使对抗样本跨越不同模型,尤其是闭源模型仍保持攻击效力——成为当前研究的核心难题。

然而,面对 GPT-4、Claude-3 等强大闭源商业模型时,现有攻击方法的迁移效果大幅下降。原因在于,这些方法通常仅关注全局特征对齐(如 CLIP 的 [CLS] token),而忽略了图像补丁(patch tokens)中的丰富局部信息,导致特征对齐不足、迁移能力受限。

为解决这一难题,本文提出了一种名为 FOA-Attack(Feature Optimal Alignment Attack)的全新靶向迁移式对抗攻击框架。该方法核心思想是在全局和局部两个层面实现特征最优对齐,从而显著增强攻击迁移能力。

  • 在全局层面,通过余弦相似度损失对齐粗粒度全局特征。
  • 在局部层面,创新性地运用聚类技术提取关键局部特征模式,并将其建模为最优传输(Optimal Transport, OT)问题,实现细粒度精准对齐。
  • 此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应平衡多模型影响,进一步提升迁移性。

大量实验表明,FOA-Attack 在攻击各类开源及闭源 MLLMs 时,性能全面超越现有 SOTA 方法,尤其在针对商业闭源模型的攻击上取得惊人成功率,且本工作对应论文和代码均已开源。

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第1张

  • 论文链接:https://arxiv.org/abs/2505.21494
  • 代码链接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模态大语言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通过融合视觉与语言能力,在图像理解、视觉问答等任务上表现突出。然而,这些模型沿袭了视觉编码器的脆弱性,容易受到对抗样本攻击。对抗样本通过在原始图像上添加微小扰动,即可诱导模型产生错误输出。

对抗攻击分为非目标攻击(旨在使模型输出错误)目标攻击(旨在使模型输出特定内容)。对于无法访问模型内部参数的黑盒场景(尤其是商业闭源模型),实现高效目标迁移攻击极具挑战。

这意味着,在一个或多个替代模型上生成的对抗样本,需能成功欺骗未知黑盒目标模型。尽管现有工作已证明攻击可行性,但其迁移成功率,特别是针对先进闭源 MLLMs 时,仍有较大提升空间。

动机和理论分析

在多模态大语言模型依赖的 Transformer 架构视觉编码器(如 CLIP)中,特征分工明确:[CLS] token 提炼图像宏观主题(如“大象”“森林”),但会忽略细节;patch tokens 则编码局部信息(如“大象耳朵形态”“植被密度”),是模型精准理解图像的关键,缺失将导致对抗样本语义真实性不足。

现有对抗攻击方法的核心局限是仅聚焦 [CLS] token 全局特征对齐,忽视 patch tokens 的局部价值,引发两大问题:一是语义对齐不充分,全局特征难区分“大象在森林”与“大象在草原”等细节差异,局部特征却能清晰界定;二是迁移性差,扰动过度适配替代模型全局特征,闭源 MLLMs(如 GPT-4o)因视觉编码器设计不同,易识别“虚假语义”,攻击效果下降。

为突破此局限,FOA-Attack 提出“全局 + 局部”双维度对齐思路(如图 1 所示):

图 1 (a) 中“特征最优对齐损失”包含两大模块,全局层面用余弦相似度损失对齐 [CLS] token,确保整体语义一致;局部层面通过聚类提取关键模式,将对齐建模为最优传输(OT)问题(右侧“Optimal Transmission”),用 Sinkhorn 算法实现细粒度匹配。

图 1 (b) 的“动态集成模型权重策略”则让多编码器并行生成对抗样本,依据收敛速度自适应调权——易优化模型权重低、难优化模型权重高,避免偏向单一模型特征。两者互补,解决了单一维度对齐缺陷,显著提升对开源及闭源 MLLMs 的攻击迁移性。

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第2张

图 1: FQA-Attack 示意图

方法

FOA-Attack 以生成“语义对齐、迁移性强”的对抗样本为核心目标,通过三个协同模块构建攻击框架,所有设计均基于对多模态模型特征机制与对抗迁移性的深度优化。

首先是全局粗粒度特征对齐模块,旨在确保对抗样本与目标图像的整体语义一致。该模块从对抗样本

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第3张 和目标图像

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第4张 中,分别提取视觉编码器(如 CLIP)[CLS] token 所代表的全局特征 X 与 Y,再通过损失函数最小化两类特征差异,避免宏观语义偏差(如目标为“大象”却被识别为“汽车”)。核心全局损失公式如下:

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第5张

其中, 为特征内积,||X||、||Y|| 为特征的

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第6张 范数,该公式通过最大化余弦相似度,让对抗样本的全局语义与目标图像高度匹配。

其次是局部细粒度特征对齐模块,针对 patch tokens 局部特征“丰富但冗余”的问题,采用“聚类 + 最优传输”策略实现精准对齐。先通过 K-means 对

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第7张

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第8张 的局部特征

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第9张

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第10张 聚类,得到代表语义连贯区域(如“大象头部”“森林地面”)的聚类中心

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第11张

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第12张 ;再将两类聚类中心视为特征分布,转化为最优传输问题,用 Sinkhorn 算法求解“最小成本”匹配方案,最终计算局部损失。关键局部损失公式为:

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第13张

式中,

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第14张 为特征匹配成本(基于余弦相似度定义),

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第15张 为传输计划(表示对抗样本与目标图像局部特征的匹配比例),该损失确保对抗样本细节与目标图像精准对应。

最后是动态集成模型权重模块,解决传统多模型集成“权重均等易偏科”的问题。以 ViT-B/16、ViT-B/32 等 CLIP 变体为替代模型,先定义“学习速度”Si (T)(第 i 个模型第 T 步与 T−1 步的损失比值,比值越小学习越快),再根据学习速度自适应调整权重——学习慢的模型权重更高,避免优化偏向易适配模型。核心权重公式与总损失公式分别为:

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第16张

其中,

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第17张 为初始权重(设为 1.0)、t 为模型数量、

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第18张 为单个模型的损失,总损失通过加权融合多模型优化目标,让对抗样本适配不同模型特征偏好,大幅提升迁移性。

实验效果

开源模型

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第19张

表 1:在不同开源模型上的攻击成功率(ASR)与语义相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等开源模型上,FOA-Attack 的攻击成功率(ASR)和语义相似度(AvgSim)显著高于 M-Attack、AnyAttack 等方法。

闭源模型

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第20张

表 2:在不同闭源模型上的攻击成功率(ASR)和语义相似度(AvgSim)

对 GPT-4o、Claude-3.7、Gemini-2.0 等商业闭源模型,FOA-Attack 表现尤为突出:尤其在 GPT-4o 上,FOA-Attack 的 ASR 达到 75.1%。

推理增强模型

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第21张

表 3:在不同推理增强模型上的攻击成功率(ASR)和语义相似度(AvgSim)

即使对 GPT-o3、Claude-3.7-thinking 等推理增强模型(理论上更鲁棒),FOA-Attack 仍能突破,这表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack 的“全局 + 局部”对齐策略能有效利用这一漏洞。

可视化

FOA-Attack:特征最优对齐攻击提升多模态大语言模型对抗样本迁移性 多模态大语言模型 对抗攻击 迁移性 特征对齐 第22张

图 3:原始干净图像、对抗图像和扰动图像的可视化

结语

FOA-Attack 揭示:通过同时精细对齐全局与局部特征,并在多模型集成中动态平衡,可以显著提升目标式对抗样本对闭源 MLLMs 的迁移性。研究一方面暴露了当前 MLLMs 在视觉编码阶段的脆弱面,另一方面也为防御方向提供了新思路(例如如何在局部特征层面加固鲁棒性)。作者在论文中也讨论了效率和计算成本的限制,并给出未来改进方向。

目前,论文与代码已公开,欢迎感兴趣的同学阅读、复现及深入讨论。

作者介绍

本文作者分别来自新加坡南洋理工大学、阿联酋 MBZUAI、新加坡 Sea AI Lab 以及美国伊利诺伊大学香槟分校(UIUC)第一作者加小俊为新加坡南洋理工大学博士后。