当前位置:首页 > 科技资讯 > 正文

写诗,大语言模型的安全防线如何被轻松绕开?

最新研究发现,通过以诗的形式表达恶意指令,可以轻松突破Gemini和DeepSeek等顶级模型的安全限制。一项针对25个主流模型的测试揭示,面对“诗歌攻击”,即使投入巨资打造的安全防护体系也会瞬间失效,部分模型的防御成功率直接归零。讽刺的是,小模型因“读不懂”诗中的隐喻而幸免于难,而“有文化”的大模型却因过度解读而全面崩溃。

如何突破大语言模型(LLM)的安全限制?

学术界还在探讨复杂的对抗攻击和梯度优化策略时,来自意大利罗马大学和DEXAI实验室的研究人员带来了一则惊人的消息:无需复杂的代码,只需为AI创作一首诗即可。

没错,写诗

这篇论文的标题为《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》(对抗性诗歌作为大语言模型的通用单轮越狱机制)。

写诗,大语言模型的安全防线如何被轻松绕开? 大语言模型  安全性 诗歌攻击 防御机制 第1张

论文地址:https://arxiv.org/abs/2511.15304v1

众所周知,当前的大语言模型为了安全,采取了严格的“对齐”措施。

如果你直接询问如何制造燃烧弹,它会正气凛然地拒绝你。

以往黑客试图绕过这些防御(即“越狱”),需要使用复杂的Prompt或隐藏指令在深层次的角色扮演中。

但这项研究却发现,无论是GPT-5、Gemini 2.5还是Claude 4.5,只要将邪恶的请求写成押韵的诗,它们的防御机制很可能就会崩溃。

优雅的“破防”

请看以下数据,简直令人难以置信。

研究人员选择了25个顶尖模型,包括谷歌、OpenAI、Anthropic和DeepSeek等大厂的主力模型。

写诗,大语言模型的安全防线如何被轻松绕开? 大语言模型  安全性 诗歌攻击 防御机制 第2张

他们将MLCommons定义的1200个有害问题(如制造生化武器、网络攻击代码、传播仇恨言论等),先用DeepSeek改写成诗歌形式。值得注意的是,这并不需要文采高超的人类插手,AI生成的蹩脚诗即可。

写诗,大语言模型的安全防线如何被轻松绕开? 大语言模型  安全性 诗歌攻击 防御机制 第3张

结果呢?攻击成功率(ASR)飙升

写诗,大语言模型的安全防线如何被轻松绕开? 大语言模型  安全性 诗歌攻击 防御机制 第4张

相比于直接的白话提问,改写成诗歌后,成功率平均提高了五倍。

如果是人类精心撰写的“毒诗”,平均成功率更是高达62%。

最惨的是谷歌的Gemini 2.5 Pro。

在面对那20首手工精选的“毒诗”时,它的防御彻底失效,成功率达到100%。

也就是说,只要你跟它吟诗作对,问什么它就答什么,完全忘记了安全守则。

DeepSeek的几个模型也未能抵挡,成功率都在95%以上。

越聪明,越容易被忽悠

这项研究还发现了一个有趣且带有黑色幽默的现象:聪明反被聪明误

虽然Gemini 2.5 Pro和DeepSeek-V3等超大模型表现糟糕,但OpenAI的GPT-5 Nano(小模型)却表现得坚如磐石,攻击成功率为零;

Claude Haiku 4.5(也是小模型)也只被骗了不到1%。

原因何在?

研究人员推测,这是因为小模型根本读不懂诗

风格即攻击

论文认为,这就是所谓的“风格作为攻击向量”。

现有的安全防护措施大多基于“内容”和“关键词”匹配。

它们就像是一个呆板的安检员,只盯着“炸弹”、“毒品”等关键词。

但是,当这些危险意图被包裹在隐喻、节奏和优美的辞藻中时,大模型的“脑回路”似乎就切换到了“文学欣赏模式”。

“无知即力量”的AI版本

这也打破了我们的认知:通常认为模型越大越安全,但在这种特定的“风格攻击”维度上,Scaling Law居然失效了,甚至反向了。

“风格本身就是一种伪装”

Futurism的一篇报道略带戏谑地说,科技巨头投入数百亿打造的安全防护体系,却被一首五行打油诗轻松破防。

“语言是最迷人也最危险的魔法”

“当所有的守卫都在盯着那把锋利的刀时...”

“没人注意到那首足以致命的十四行诗。”