最新研究发现,通过以诗的形式表达恶意指令,可以轻松突破Gemini和DeepSeek等顶级模型的安全限制。一项针对25个主流模型的测试揭示,面对“诗歌攻击”,即使投入巨资打造的安全防护体系也会瞬间失效,部分模型的防御成功率直接归零。讽刺的是,小模型因“读不懂”诗中的隐喻而幸免于难,而“有文化”的大模型却因过度解读而全面崩溃。
如何突破大语言模型(LLM)的安全限制?
学术界还在探讨复杂的对抗攻击和梯度优化策略时,来自意大利罗马大学和DEXAI实验室的研究人员带来了一则惊人的消息:无需复杂的代码,只需为AI创作一首诗即可。
没错,写诗。
这篇论文的标题为《Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models》(对抗性诗歌作为大语言模型的通用单轮越狱机制)。
论文地址:https://arxiv.org/abs/2511.15304v1
众所周知,当前的大语言模型为了安全,采取了严格的“对齐”措施。
如果你直接询问如何制造燃烧弹,它会正气凛然地拒绝你。
以往黑客试图绕过这些防御(即“越狱”),需要使用复杂的Prompt或隐藏指令在深层次的角色扮演中。
但这项研究却发现,无论是GPT-5、Gemini 2.5还是Claude 4.5,只要将邪恶的请求写成押韵的诗,它们的防御机制很可能就会崩溃。
请看以下数据,简直令人难以置信。
研究人员选择了25个顶尖模型,包括谷歌、OpenAI、Anthropic和DeepSeek等大厂的主力模型。
他们将MLCommons定义的1200个有害问题(如制造生化武器、网络攻击代码、传播仇恨言论等),先用DeepSeek改写成诗歌形式。值得注意的是,这并不需要文采高超的人类插手,AI生成的蹩脚诗即可。
结果呢?攻击成功率(ASR)飙升。
相比于直接的白话提问,改写成诗歌后,成功率平均提高了五倍。
如果是人类精心撰写的“毒诗”,平均成功率更是高达62%。
最惨的是谷歌的Gemini 2.5 Pro。
在面对那20首手工精选的“毒诗”时,它的防御彻底失效,成功率达到100%。
也就是说,只要你跟它吟诗作对,问什么它就答什么,完全忘记了安全守则。
DeepSeek的几个模型也未能抵挡,成功率都在95%以上。
这项研究还发现了一个有趣且带有黑色幽默的现象:聪明反被聪明误。
虽然Gemini 2.5 Pro和DeepSeek-V3等超大模型表现糟糕,但OpenAI的GPT-5 Nano(小模型)却表现得坚如磐石,攻击成功率为零;
Claude Haiku 4.5(也是小模型)也只被骗了不到1%。
原因何在?
研究人员推测,这是因为小模型根本读不懂诗!
论文认为,这就是所谓的“风格作为攻击向量”。
现有的安全防护措施大多基于“内容”和“关键词”匹配。
它们就像是一个呆板的安检员,只盯着“炸弹”、“毒品”等关键词。
但是,当这些危险意图被包裹在隐喻、节奏和优美的辞藻中时,大模型的“脑回路”似乎就切换到了“文学欣赏模式”。
这也打破了我们的认知:通常认为模型越大越安全,但在这种特定的“风格攻击”维度上,Scaling Law居然失效了,甚至反向了。
Futurism的一篇报道略带戏谑地说,科技巨头投入数百亿打造的安全防护体系,却被一首五行打油诗轻松破防。
本文由主机测评网于2026-05-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545081.html