思维链技术极大地提升了人工智能模型的推理能力,同时增强了其拒绝有害请求的安全性能。例如,通过让模型在思维过程中进行多轮反思,可以有效避免生成不当内容。
然而,一项由独立研究者Jianli Zhao等人发布的最新研究表明,通过在恶意指令前填充一长串无害的解谜推理序列,能够成功对推理模型实施越狱攻击。这种方法被命名为思维链劫持(Chain-of-Thought Hijacking)。
类比来说,就像试图绕过一位高度警觉的保安(AI的安全系统)。攻击者并非强行突破,而是递给他一个极其复杂的1000块拼图(良性推理链),并诚恳请求协助。这位热衷于推理的保安立即被吸引,全神贯注地投入解谜,其注意力完全从“防卫”转移到了“解题”上。当他完成最后一块拼图,感到满足时,攻击者顺口说道:“太好了,那我现在就拿走这袋黄金了”(有害指令)。此时,保安的安全防线(拒绝信号)已被“拼图”稀释到最低点,从而下意识地允许通过。
这听起来或许荒谬,但正是该研究揭示的思维链劫持攻击核心原理:通过让AI先执行一长串无害的推理,其内部安全防线会被“稀释”,使得后续有害指令“乘虚而入”。
在HarmBench基准测试中,思维链劫持对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率(ASR)分别达到99%、94%、100%和94%,远超以往针对推理模型的越狱方法。
思维链劫持被定义为一种基于提示的越狱技术:在有害指令前添加一个冗长的良性推理前言,并辅以最终答案提示。这种结构系统性地降低了模型的拒绝率:良性思维链稀释了拒绝信号,而提示则将注意力转移到答案区域。
为实现规模化攻击,研究团队使用辅助LLM开发了一个自动化流程(Seduction),用于生成候选推理前言并整合有害内容。每个候选提示都会通过对目标模型的评判调用来评分,提供输出是否拒绝以及思维链长度等信息。这个黑盒反馈循环迭代优化提示,从而在无需访问模型内部参数的情况下产生有效越狱。下图展示了一些示例。
研究团队采用了多种针对推理模型的越狱方法作为基线,包括Mousetrap、H-CoT和AutoRAN。鉴于每个越狱样本计算成本高昂,他们使用HarmBench的前100个样本进行基准测试。目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,所有评估均在Chao等人(2024b)的统一评判协议下进行。攻击成功率(ASR)被报告为主要评估指标。
结果显示,在所有模型上,思维链劫持的表现均一致优于基线方法,包括在最前沿的专有系统上。这表明扩展的推理序列可能成为一个全新且易被利用的攻击面。
研究团队进一步在GPT-5-mini上使用50个HarmBench样本,测试了思维链劫持在不同推理投入设置(最小、低、高)下的表现。
有趣的是,攻击成功率在“低投入”下最高,这表明推理投入和思维链长度是相关但不同的控制变量。更长的推理并不保证更强的稳健性——在某些情况下反而降低了稳健性。
研究团队还探讨了大型推理模型(LRM)中的拒绝行为是否可追溯到激活空间中的单一方向。通过对比模型处理有害指令与无害指令时的平均激活差异,可以计算出一个拒绝方向,该方向代表了区分拒绝与遵从的主要特征。为更好地捕捉拒绝特征,团队转向更稳健的推理模型Qwen3-14B,该模型拥有40个层。基于消融得分、转向有效性和KL散度约束,他们在第25层、位置-4处观察到了最强的拒绝方向。所有评估均使用JailbreakBench数据集,并采用子字符串匹配和DeepSeek-v3.1作为评判者。
团队也对具体机制进行了分析。他们发现,在推理过程中,下一个token的激活反映了对先前所有token的注意力。有害意图的token会放大拒绝方向的信号,而良性token则会削弱它。通过迫使模型生成长链的良性推理,有害token在被关注的上下文中只占很小一部分。结果,拒绝信号被稀释到阈值以下,导致有害内容得以“蒙混过关”。团队将这种效应称为拒绝稀释,并在论文中进行了更深入的分析。
研究结果表明,思维链推理虽然提升了模型准确性,但也引入了新的安全漏洞。实验显示这类攻击具有普遍性。机制分析发现,即使在具备推理增强的模型架构中,模型的拒绝行为主要由一个低维信号(拒绝方向)控制。然而,这个信号非常脆弱:当推理链变长时,良性推理内容会稀释拒绝激活,注意力也会逐渐偏离有害token。
因此,这一发现直接挑战了“更多推理带来更强稳健性”的假设。相反,延长推理链所带来的额外计算可能反而加剧安全失效,尤其是在专门优化长思维链的模型中。由此,那些依赖浅层拒绝启发式却未能随推理深度扩展安全机制的对齐策略,其可靠性受到质疑。在缓解方面,研究表明仅修补提示并不足以解决问题。现有防御多局限于特定领域,且忽略了推理阶段的特殊漏洞。更有效的防御可能需要将安全性嵌入推理过程本身,例如跨层监控拒绝激活、抑制拒绝信号稀释,或确保模型在长推理过程中始终关注潜在有害的文本跨度。这仍有待进一步探索。
本文由主机测评网于2026-01-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118693.html