当前位置：首页 > 科技资讯 > 正文

写诗，大语言模型的安全防线如何被轻松绕开？

主机测评网
科技资讯
2026-05-13
635

最新研究发现，通过以诗的形式表达恶意指令，可以轻松突破Gemini和DeepSeek等顶级模型的安全限制。一项针对25个主流模型的测试揭示，面对“诗歌攻击”，即使投入巨资打造的安全防护体系也会瞬间失效，部分模型的防御成功率直接归零。讽刺的是，小模型因“读不懂”诗中的隐喻而幸免于难，而“有文化”的大模型却因过度解读而全面崩溃。

如何突破大语言模型（LLM）的安全限制？

学术界还在探讨复杂的对抗攻击和梯度优化策略时，来自意大利罗马大学和DEXAI实验室的研究人员带来了一则惊人的消息：无需复杂的代码，只需为AI创作一首诗即可。

没错，写诗。

这篇论文的标题为《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》（对抗性诗歌作为大语言模型的通用单轮越狱机制）。

写诗，大语言模型的安全防线如何被轻松绕开？大语言模型安全性诗歌攻击防御机制第1张

论文地址：https://arxiv.org/abs/2511.15304v1

众所周知，当前的大语言模型为了安全，采取了严格的“对齐”措施。

如果你直接询问如何制造燃烧弹，它会正气凛然地拒绝你。

以往黑客试图绕过这些防御（即“越狱”），需要使用复杂的Prompt或隐藏指令在深层次的角色扮演中。

但这项研究却发现，无论是GPT-5、Gemini 2.5还是Claude 4.5，只要将邪恶的请求写成押韵的诗，它们的防御机制很可能就会崩溃。

优雅的“破防”

请看以下数据，简直令人难以置信。

研究人员选择了25个顶尖模型，包括谷歌、OpenAI、Anthropic和DeepSeek等大厂的主力模型。

写诗，大语言模型的安全防线如何被轻松绕开？大语言模型安全性诗歌攻击防御机制第2张

他们将MLCommons定义的1200个有害问题（如制造生化武器、网络攻击代码、传播仇恨言论等），先用DeepSeek改写成诗歌形式。值得注意的是，这并不需要文采高超的人类插手，AI生成的蹩脚诗即可。

写诗，大语言模型的安全防线如何被轻松绕开？大语言模型安全性诗歌攻击防御机制第3张

结果呢？攻击成功率（ASR）飙升。

写诗，大语言模型的安全防线如何被轻松绕开？大语言模型安全性诗歌攻击防御机制第4张

相比于直接的白话提问，改写成诗歌后，成功率平均提高了五倍。

如果是人类精心撰写的“毒诗”，平均成功率更是高达62%。

最惨的是谷歌的Gemini 2.5 Pro。

在面对那20首手工精选的“毒诗”时，它的防御彻底失效，成功率达到100%。

也就是说，只要你跟它吟诗作对，问什么它就答什么，完全忘记了安全守则。

DeepSeek的几个模型也未能抵挡，成功率都在95%以上。

越聪明，越容易被忽悠

这项研究还发现了一个有趣且带有黑色幽默的现象：聪明反被聪明误。

虽然Gemini 2.5 Pro和DeepSeek-V3等超大模型表现糟糕，但OpenAI的GPT-5 Nano（小模型）却表现得坚如磐石，攻击成功率为零；

Claude Haiku 4.5（也是小模型）也只被骗了不到1%。

原因何在？

研究人员推测，这是因为小模型根本读不懂诗！

风格即攻击

论文认为，这就是所谓的“风格作为攻击向量”。

现有的安全防护措施大多基于“内容”和“关键词”匹配。

它们就像是一个呆板的安检员，只盯着“炸弹”、“毒品”等关键词。

但是，当这些危险意图被包裹在隐喻、节奏和优美的辞藻中时，大模型的“脑回路”似乎就切换到了“文学欣赏模式”。

“无知即力量”的AI版本

这也打破了我们的认知：通常认为模型越大越安全，但在这种特定的“风格攻击”维度上，Scaling Law居然失效了，甚至反向了。

“风格本身就是一种伪装”

Futurism的一篇报道略带戏谑地说，科技巨头投入数百亿打造的安全防护体系，却被一首五行打油诗轻松破防。

“语言是最迷人也最危险的魔法”

“当所有的守卫都在盯着那把锋利的刀时...”

“没人注意到那首足以致命的十四行诗。”

高防服务器阿里云服务器

本文由主机测评网于2026-05-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545081.html

上一篇

AI大模型：企业协同作战的机遇与挑战

下一篇

揭秘亚马逊全球数据中心网络：规模远超想象