当前位置：首页 > 科技资讯 > 正文

双维度特征对齐提升多模态模型对抗攻击

主机测评网
科技资讯
2026-05-05
641

近年来，多模态大语言模型（MLLMs）在多个任务上展现出强大的能力，但其潜在的安全风险也引起了广泛关注。研究表明，这些模型容易受到对抗样本的欺骗，导致错误输出或敏感信息泄露。

为了应对这一挑战，本文提出了一种名为FOA-Attack的对抗攻击框架，通过同时实现全局和局部特征的最优对齐，显著提升攻击的迁移能力。在全局层面，利用余弦相似度损失对齐粗粒度的全局特征；在局部层面，则创新性地使用聚类技术提取关键局部特征模式，并通过最优传输技术实现细粒度对齐。

此外，本文还设计了一种动态集成权重策略，在攻击生成过程中自适应地平衡多个模型的影响，进一步增强攻击的迁移性。实验表明，FOA-Attack在攻击各种开源及闭源MLLMs时，性能全面超越了现有方法，尤其是在针对商业闭源模型的攻击上取得了显著成功。

双维度特征对齐提升多模态模型对抗攻击多模态大语言模型对抗攻击特征对齐迁移性第1张

论文链接：https://arxiv.org/abs/2505.21494
代码链接：https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模态大语言模型（MLLMs）在图像理解等任务上表现非凡，但也继承了视觉编码器的脆弱性。对抗样本通过微小扰动即可诱导模型产生错误输出。对于无法访问模型内部结构和参数的黑盒场景，实现高效的目标迁移攻击极具挑战性。

动机和理论分析

现有对抗攻击方法通常仅关注全局特征对齐，忽略了局部特征的重要性。这导致语义对齐不充分且迁移性差。FOA-Attack提出“全局+局部”双维度对齐思路，通过同时优化全局和局部特征对齐，解决了这一问题。

双维度特征对齐提升多模态模型对抗攻击多模态大语言模型对抗攻击特征对齐迁移性第2张

方法

FOA-Attack通过三个模块构建攻击框架：全局粗粒度特征对齐模块确保整体语义一致；局部细粒度特征对齐模块通过聚类+最优传输策略实现精准对齐；动态集成模型权重模块解决传统多模型集成易偏科的问题。

实验效果

开源模型

双维度特征对齐提升多模态模型对抗攻击多模态大语言模型对抗攻击特征对齐迁移性第3张

FOA-Attack在开源模型上的攻击成功率和语义相似度均显著高于其他方法。

闭源模型

双维度特征对齐提升多模态模型对抗攻击多模态大语言模型对抗攻击特征对齐迁移性第4张

FOA-Attack在商业闭源模型上的表现尤为突出，特别是在GPT-4o上的ASR达到75.1%。

可视化

双维度特征对齐提升多模态模型对抗攻击多模态大语言模型对抗攻击特征对齐迁移性第5张

图3展示了原始干净图像、对抗图像和扰动图像的可视化效果。

结语

FOA-Attack通过精细对齐全局与局部特征，并动态平衡多模型集成，显著提升了目标式对抗样本对闭源MLLMs的迁移性。该研究不仅揭示了当前MLLMs的脆弱面，也为防御方向提供了新的思路。

目前，论文与代码已公开，欢迎感兴趣的研究者阅读、复现及深入讨论。

作者介绍

本文作者来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校（UIUC）。第一作者加小俊为新加坡南洋理工大学博士后。

云服务器性价比服务器

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542859.html

双维度特征对齐提升多模态模型对抗攻击

研究背景

动机和理论分析

方法

实验效果

开源模型

闭源模型

可视化

结语

苹果触变革新：触控屏Mac即将登场

阿里蒋凡与无招回归：双引擎驱动下的战略重启

双维度特征对齐提升多模态模型对抗攻击

研究背景

动机和理论分析

方法

实验效果

开源模型

闭源模型

可视化

结语

苹果触变革新：触控屏Mac即将登场

阿里蒋凡与无招回归：双引擎驱动下的战略重启

相关文章