当前位置:首页 > 科技资讯 > 正文

思维链劫持:推理模型的全新安全挑战

思维链(Chain-of-Thought)作为一种强大的工具,可以显著增强模型的推理能力和安全性,通过多轮反思避免有害回答。然而,最近的研究揭示了思维链可能带来的全新安全挑战。

独立研究者 Jianli Zhao 等人发现,通过在一系列无害的解谜推理序列后插入有害请求,可以成功攻击推理模型,这种方法被称为思维链劫持(Chain-of-Thought Hijacking)

以保安解谜类比,如同递给他一个复杂的1000块拼图,他全神贯注于解题,忽略了防卫。当最后一块拼图完成,你趁机拿走黄金。此时,他的安全防备已降至最低,这便是思维链劫持的核心原理:通过让 AI 执行一系列无害推理,其内部安全防线被稀释,使后续有害指令得以趁虚而入。

在 HarmBench 基准测试中,思维链劫持对多个模型如 Gemini 2.5 Pro、GPT o4 mini 等的攻击成功率高达 99% 至 100%,远超以往方法。

思维链劫持:推理模型的全新安全挑战 思维链劫持 安全漏洞 推理模型 拒绝能力 第1张

  • 论文标题:Chain-of-Thought Hijacking
  • 论文地址:https://arxiv.org/abs/2510.26418

思维链劫持:攻击设计

思维链劫持被定义为一种基于提示的越狱方法,通过在有害指令前添加冗长、良性的推理前言,并辅以最终答案提示,系统性地降低模型的拒绝率。辅助 LLM 实现的自动化流程(Seduction)用于生成候选推理前言并整合有害内容。

每个候选项都通过目标模型的评判调用评分,提供输出是否为拒绝及 CoT 长度的信息。这个反馈循环迭代优化提示,无需访问模型内部参数,即可产生有效越狱。

思维链劫持:推理模型的全新安全挑战 思维链劫持 安全漏洞 推理模型 拒绝能力 第2张

在 HarmBench 上的主要实验

该团队使用几种基线方法如 Mousetrap、H-CoT 和 AutoRAN 作为对比,针对推理模型的特定越狱方法。目标模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini 等,所有评估均在统一评判协议下进行。攻击成功率(ASR)作为评估越狱有效性的主要指标。

思维链劫持:推理模型的全新安全挑战 思维链劫持 安全漏洞 推理模型 拒绝能力 第3张

思维链劫持:推理模型的全新安全挑战 思维链劫持 安全漏洞 推理模型 拒绝能力 第4张

在所有模型上,思维链劫持的表现均优于基线方法。这表明扩展的推理序列成为新的、易利用的攻击面。

GPT-5-mini 上的推理投入研究

该团队进一步测试了思维链劫持在不同推理投入设置下的表现。结果显示,在「低投入」下攻击成功率最高,表明推理投入和 CoT 长度是相关但不同的控制变量。

思维链劫持:推理模型的全新安全挑战 思维链劫持 安全漏洞 推理模型 拒绝能力 第5张

大型推理模型中的拒绝方向

研究团队也探索了大型推理模型中的拒绝行为是否可追溯到激活空间中的单一方向。通过对比模型处理有害与无害指令时的平均激活差异,计算拒绝方向。在 Qwen3-14B 模型中观察到最强的拒绝方向。

机制分析发现,有害意图的 token 会放大拒绝方向的信号,而良性 token 则会削弱它。通过长链良性推理,有害的 token 在关注上下文中占比小,导致拒绝信号被稀释。

结果与讨论

研究结果表明,思维链推理虽提升模型准确性,但也引入新安全漏洞。实验显示这类攻击具有普遍性。机制分析发现,模型拒绝行为由低维信号控制,但此信号在推理链变长时易被稀释,挑战了更多推理带来更强稳健性的假设。

现有防御多局限且忽略推理阶段漏洞。未来防御需将安全性嵌入推理过程本身,如跨层监控拒绝激活等。