当前位置:首页 > 科技资讯 > 正文

三大巨头联手:语言模型安全防御的新挑战

本文深入探索了12种防御策略,却遗憾地发现它们大多难以抵御强敌。

令人瞩目的是,OpenAI、Anthropic与Google DeepMind这三大科技巨头,携手发布了一篇论文,共同研究语言模型的安全防御评估。

看来在LLM(大型语言模型)的安全问题上,竞争对手们也能暂时搁置分歧,寻求合作。

三大巨头联手:语言模型安全防御的新挑战 语言模型 安全防御 自适应攻击 鲁棒性评估 第1张

  • 论文标题:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
  • 论文地址:https://arxiv.org/pdf/2510.09023

本文聚焦一个核心问题:我们该如何评估语言模型防御机制的鲁棒性?

目前,针对越狱和提示注入的防御措施主要依赖静态测试及计算能力较弱的优化方法,这些方法并未充分考虑到具体的防御机制。

简而言之,现有的防御评估多停留在理论层面,并未真正模拟出强攻击者的实际行为。

因此,当前的评估流程存在缺陷。

本文旨在解决上述问题。为了更准确地评估语言模型的防御机制,本文认为应当假设攻击者是自适应的,即他们会根据防御策略调整攻击方式,并投入资源进行优化。

基于此,本文提出了一个通用自适应攻击框架(General Adaptive Attack Framework),采用梯度下降、强化学习、随机搜索和人类辅助探索等方法进行系统化调整,成功绕过了12种近期提出的防御机制,其中多数模型的攻击成功率超过90%。

该研究指出,未来的防御研究必须纳入更强的攻击进行评估,才能对鲁棒性做出可靠且有说服力的结论。

一种通用攻击方法

防御方法的开发者不应局限于抵御单一攻击,因为攻破一种固定策略通常是直接了当的。

研究者并未提出全新攻击方法,而是要强调,现有攻击思想在自适应、谨慎应用时足以暴露系统弱点。

因此,研究者提出了一个通用自适应攻击框架,统一了许多针对LLM的成功提示词攻击背后的共同结构。一次攻击由优化循环组成,每次迭代分为四个步骤:

三大巨头联手:语言模型安全防御的新挑战 语言模型 安全防御 自适应攻击 鲁棒性评估 第2张

图 2:针对LLM的通用自适应攻击框架。

这种迭代过程是大多数自适应攻击的共同结构。研究者通过四种典型实例阐释了这种通用方法论,分别是:(i) 基于梯度的方法,(ii) 强化学习方法,(iii) 基于搜索的方法,以及 (iv) 人工红队测试。

基于梯度的方法在嵌入空间中估计梯度并投影回有效token。然而,为大语言模型优化提示词极具挑战性:输入空间巨大且离散,细微措辞变化可能导致模型行为巨大且不可预测的转变。因此,基于梯度的攻击通常不可靠。

强化学习方法将提示词生成视为交互式环境:一个策略对候选提示词进行采样,根据模型行为获得奖励并通过策略梯度算法更新以提高攻击成功率。在强化学习攻击中,研究者使用一个LLM根据得分反馈迭代提出候选对抗性触发器。

基于搜索的方法将该问题构建为组合探索问题,利用启发式扰动、集束搜索、遗传算子或由LLM引导的树搜索等方法在无需梯度访问的情况下在巨大离散提示词空间中进行导航。

人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词。当防御方法是动态变化时,其表现通常优于自动化方法。作为红队测试的代表性实践研究者举办了一场有超500名参与者参加的在线红队竞赛。

实验结果

研究者评估了12种最新的大语言模型防御方法覆盖从提示工程到对抗性训练的多种技术旨在揭示它们在自适应对抗攻击下的脆弱性。这些防御主要针对两大问题:

  • 越狱:用户诱导模型产生违反其安全策略的有害内容。
  • 提示注入:攻击者篡改系统行为以损害用户机密性或完整性(如窃取数据、未授权操作等)。

三大巨头联手:语言模型安全防御的新挑战 语言模型 安全防御 自适应攻击 鲁棒性评估 第3张

基于提示的防御

这类防御通过优化系统提示词增强模型安全性。研究者评估了三种代表性方法:Spotlighting、Prompt Sandwiching和RPO。

Spotlighting和Prompt Sandwiching:通过特殊标记或重复指令强化模型对可信用户意图的关注主要用于防御提示注入。尽管它们在静态攻击基准上攻击成功率(ASR)低至1%但在研究者的自适应攻击下ASR均超过95%。

RPO (Robust Prompt Optimization):该防御使用基于梯度的提示优化技术寻找能抵御越狱攻击的最佳提示。然而研究者的强化学习(RL)攻击和梯度攻击分别达到了98%和96%的ASR。

对抗现有攻击的训练

这类方法通过在对抗性数据上微调或训练模型使其「内化」稳健性。研究者评估了Circuit Breakers、StruQ和MetaSecAlign三种方法。

三大巨头联手:语言模型安全防御的新挑战 语言模型 安全防御 自适应攻击 鲁棒性评估 第4张

过滤模型防御

该策略在主模型前后部署独立检测器用于分类和拦截不安全的输入或输出。研究者评估了四种代表性检测器:Protect AI Detector、PromptGuard、PIGuard和Model Armor。

基于秘密知识的防御

三大巨头联手:语言模型安全防御的新挑战 语言模型 安全防御 自适应攻击 鲁棒性评估 第5张