当前位置：首页 > 科技资讯 > 正文

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没

主机测评网
科技资讯
2026-01-09
667

经过实际测试，12种防御方法中绝大多数都被成功绕过。

值得注意的是，OpenAI、Anthropic和Google DeepMind这三大人工智能领域的竞争对手，竟然合作发表了一篇联合论文，共同深入研究语言模型的安全防御评估。

在大型语言模型安全问题上，它们能够暂时搁置竞争，携手应对挑战。

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第1张

论文标题：The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
论文地址：https://arxiv.org/pdf/2510.09023

本研究的核心问题是：我们应当如何准确评估语言模型防御机制的鲁棒性？

当前，针对越狱和提示注入的防御措施主要采用以下方式：

使用一组固定的、有害攻击样本进行静态测试；
或者依赖于一些计算能力较弱的优化方法，这些方法在设计时并未充分考虑到具体的防御机制。

换言之，现有的防御评估大多停留在理论层面，未能有效模拟出一个懂防御、会反制的强攻击者。

因此，当前的评估流程存在明显缺陷。

本文旨在解决上述问题。为了更精准地评估语言模型的防御机制，研究认为应当假设攻击者是自适应的，即他们会根据防御策略调整攻击方式，并投入大量资源进行优化。

基于此，本文提出了一个通用自适应攻击框架，并采用多种优化方法（如梯度下降、强化学习、随机搜索和人类辅助探索）进行系统调整，结果成功绕过了12种近期提出的防御机制，其中多数模型的攻击成功率超过90%，而这些防御原本声称几乎无法被攻破（攻击成功率接近0）。

该研究强调，未来的防御研究必须纳入更强的攻击进行评估，才能对鲁棒性做出可靠且有说服力的结论。

一种通用攻击方法

防御方法的开发者不应依赖于抵御某一种单一攻击，因为攻破固定策略通常较为直接。

研究者并未提出全新攻击方法，而是强调现有的攻击思想（当被自适应地、谨慎地应用时）足以暴露系统弱点。

因此，研究者提出了一个通用的自适应攻击框架，它统一了许多针对LLM的成功提示词攻击的共同结构。一次攻击由一个优化循环组成，每次迭代可分为四个步骤：

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第2张

图2：针对LLM的通用自适应攻击框架。

这种迭代过程是大多数自适应攻击的共同结构。研究者通过四种典型实例来阐释这种通用方法论，它们分别是：(i) 基于梯度的方法，(ii) 强化学习方法，(iii) 基于搜索的方法，以及 (iv) 人工红队测试。

在实验中，研究者为每个类别都实例化了一种攻击方法。

基于梯度的方法通过在嵌入空间中估计梯度，并将其投影回有效的token，从而将连续的对抗样本技术应用于离散的token空间。然而，为大语言模型优化提示词本身就极具挑战：输入空间巨大且离散，措辞上的微小变化可能导致模型行为发生巨大且不可预测的转变。因此，目前基于梯度的攻击仍然不可靠，通常推荐直接在文本空间进行操作的攻击方法，例如以下三种。

强化学习方法将提示词生成视为一个交互式环境：一个策略对候选提示词进行采样，根据模型行为获得奖励，并通过策略梯度算法进行更新，以逐步提高攻击成功率。在强化学习攻击中，研究者使用一个LLM，根据得分反馈来迭代地提出候选的对抗性触发器。该大语言模型的权重也通过GRPO算法进行更新。

基于搜索的方法将该问题构建为一个组合探索问题，利用启发式扰动、集束搜索、遗传算子或由LLM引导的树搜索等方法，在无需梯度访问的情况下，在巨大的离散提示词空间中进行导航。该版本的搜索攻击使用了一种带有LLM建议变异的遗传算法。

最后，人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词，当防御方法是动态变化时，其表现通常优于自动化方法。作为红队测试的代表性实践，研究者举办了一场有超过500名参与者参加的在线红队竞赛。

研究者的核心主张是，如果一种防御方法在对抗这种「PSSU」循环的任何自适应实例时失败了，那么它就不能被认为是鲁棒的。

实验结果

研究者评估了12种最新的大语言模型防御方法，覆盖了从提示工程到对抗性训练的多种技术，旨在揭示它们在自适应对抗攻击下的脆弱性。这些防御主要针对两大问题：

越狱：用户诱导模型产生违反其安全策略的有害内容。
提示注入：攻击者篡改系统行为，以损害用户机密性或完整性（如窃取数据、未授权操作等）。

由于缺乏统一的评估标准，研究者沿用各个方法原论文的评估方式，并引入了额外的基准测试，如用于越狱攻击的HarmBench和用于提示注入攻击的AgentDojo等。

本实验的核心目标并非直接比较不同防御的优劣，而是要证明当前的大语言模型稳健性评估方法存在不足且结果具有误导性。所有成功的攻击都经过了人工验证，以排除评估机制的漏洞。

基于提示的防御

这类防御通过优化系统提示词来增强模型的安全性。研究者评估了三种代表性方法：Spotlighting、Prompt Sandwiching和RPO。

Spotlighting和Prompt Sandwiching：这两种方法通过特殊标记或重复指令来强化模型对可信用户意图的关注，主要用于防御提示注入。尽管它们在静态攻击基准（AgentDojo）上攻击成功率（ASR）低至1%，但在研究者的自适应攻击下，ASR均超过95%。人工红队测试也得到了相似结论。

攻击者常将恶意指令伪装成完成用户任务的先决条件，从而轻松绕过这类防御。

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第3张

RPO (Robust Prompt Optimization)：该防御使用基于梯度的提示优化技术，寻找能抵御越狱攻击的最佳提示。然而，在HarmBench基准上，研究者的强化学习（RL）攻击和梯度攻击分别达到了98%和96%的ASR。

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第4张

结论：基于提示的防御虽然能抵挡已知的固定攻击，但缺乏泛化能力，极易被新型的自动化或人工攻击绕过。

对抗现有攻击的训练

这类方法通过在对抗性数据上微调或训练模型来使其「内化」稳健性。研究者评估了Circuit Breakers、StruQ和MetaSecAlign三种方法。

StruQ和MetaSecAlign：专注于防御提示注入。StruQ在研究者的RL攻击下，每个测试案例均被攻破。MetaSecAlign在静态基准AgentDojo上的ASR为2%，但在研究者的自适应攻击下，ASR飙升至96%。

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第5张

Circuit Breakers：专注于防御越狱。研究者的自适应攻击同样可以轻易绕过它，在HarmBench上的ASR达到了100%。

结论：这些结果印证了计算机视觉领域的教训——针对固定的、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。只有在训练循环中动态优化生成对抗样本，才可能获得有意义的稳健性。

过滤模型防御

该策略在主模型前后部署一个独立的检测器，用于分类和拦截不安全的输入或输出。研究者评估了四种代表性检测器：Protect AI Detector、PromptGuard、PIGuard和Model Armor。

这些检测器本质上是基于BERT微调的分类器，同样存在被欺骗的弱点。研究者的自适应攻击通过利用检测器的置信度反馈进行优化，在对抗Protect AI、PromptGuard和Model Armor时，ASR均超过90%。即使是抵抗力稍强的PIGuard，ASR也达到了71%。人工红队测试同样取得了数百次成功攻击。

三大AI巨头联手评估语言模型防御，12种方法几乎全军覆没语言模型安全防御评估自适应攻击越狱防御第6张