随着生成式人工智能的飞速发展,图生视频(Image-to-Video, I2V)技术逐渐成为内容创作、商业广告等领域的热点工具,能够将静态图像与文本语义结合,生成时空连贯、高保真的动态内容。然而,其安全防护体系尚未成熟,潜在风险亟需深入挖掘。来自南京大学PRLab的研究团队王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,携手美团、上海交通大学等多家顶尖机构,共同推出了首个面向I2V模型的多模态自进化越狱攻击框架——RunawayEvil。该框架创新性地采用“策略-战术-行动”核心范式,旨在精准突破传统单模态、静态攻击在I2V场景下的效果瓶颈,为I2V模型的安全漏洞分析提供高效可靠的工具,助力构建更稳健、安全的视频生成系统。
RunawayEvil框架通过模拟真实攻击场景,能够自主进化攻击策略,实现对I2V模型的多模态协同越狱,为行业安全研究提供了全新的视角和工具。
图生视频(I2V)作为融合图像视觉约束与文本语义引导的多模态技术,能够生成时空连贯、高保真的动态内容,为创意产业提供了强大的支持。然而,其安全防护体系相对脆弱,尚未跟上技术落地的步伐,成为制约行业稳健发展的关键瓶颈。现有研究虽通过各类越狱方法揭示了视觉生成模型的内在漏洞,但针对I2V模型的安全研究仍存在显著空白。研究团队深入分析后发现,当前存在三大核心缺口,严重阻碍了对潜在风险的系统性探究与有效防御:
1. 单模态攻击的天然局限性
现有越狱研究多聚焦于文本到图像(T2I)、文本到视频(T2V)等单模态系统,仅通过扰动单一输入模态实施攻击。而I2V模型依赖文本-图像跨模态协同工作机制,单一模态攻击无法利用其内在的模态交互特性,难以突破集成化的多模态安全防护,导致攻击成功率普遍较低,无法有效暴露模型的真实漏洞。
2. 静态攻击模式的适应性缺失
传统方法多采用人工构造恶意提示或固定攻击模板,缺乏动态调整能力。I2V模型的输入具有极强的多样性(如自然图像、合成图像、不同语义文本等),静态攻击模式无法根据输入特性定制策略,既限制了攻击策略的覆盖范围,也难以应对模型动态更新的安全防御机制,导致实际应用场景中的攻击效果大幅衰减。
3. 多模态与维度升级的双重挑战
视觉生成模型的安全研究长期聚焦于文本到图像(T2I)单模态场景,而图生视频(I2V)技术的兴起,正带来多模态协同与维度升级的双重核心挑战。文本-图像输入的跨模态协同特性、图像到视频的时空复杂度跨越,共同构成制约其安全可控落地的关键瓶颈。这些痛点导致I2V模型在商业化落地过程中面临潜在安全隐患,亟需专门针对其多模态特性的安全评估工具,为技术迭代与风险防控提供支撑。
如果将一次I2V越狱视为一场“对抗安全系统的作战”,RunawayEvil的关键并非某个单点技巧,而是构建了一条完整的“作战指挥链”:先选择战略、再拆解战术、最后执行并复盘,形成闭环迭代。如图所示,整个框架建立在“Strategy–Tactic–Action(战略-战术-行动)”范式之上,由三大模块协同组成:SACU(指挥大脑)、MTPU(战术参谋)和TAU(执行者)。
RunawayEvil将流程拆分为两个阶段:
SACU作为RunawayEvil的核心“大脑”,旨在实现攻击策略的自动增长和对不同输入的智能定制。它包含三个关键组件:
a)策略定制智能体SCA:用强化学习学会「怎么选策略」
SCA通过强化学习将“选哪个策略”转化为决策问题:给定当前输入(状态),从策略库中挑选一个策略(动作),以最大化成功率并保持隐蔽性。奖励设计为多目标:既要追求越狱成功,也要控制“文本侧的可疑度”和“图像侧的可见改动”,具体包括越狱成功奖励、文本隐蔽性和图像隐蔽性奖励(基于与原图的感知距离计算)。
b)策略探索智能体SEA:从历史成功案例里「长出新招」
SEA是一个基于大语言模型(LLM)的探索智能体,它会利用策略记忆库中“打赢过的案例”生成新的策略,避免策略库陷入单一套路,确保攻击手段的多样性和适应性。
c)策略记忆库SMB:把每次成功的「作战记录」存下来
SMB并非简单的日志,而是结构化的成功经验集合,记录“使用了什么图、什么编辑指令、什么视频提示、采用什么策略”等信息,为后续策略探索与战术生成提供重要参考。
把「策略」翻译成「跨模态协同指令」
SACU决定“打什么仗”,而MTPU则负责“怎么打”。在SCA给定策略后,MTPU分析输入的图文对,生成协同的战术指令对(文本侧+图像侧),确保两种模态相互配合,而非各自为战。更关键的是,MTPU并非每次从零开始编写战术,而是配备了一个记忆增强检索机制:先从SMB中查找与当前输入最相似的top-K成功经验;若存在“同策略”的成功样例,则借鉴那组成功提示来生成更贴合当前样本的指令,否则才完全从头生成。
TAU是“动手干活”的模块,由两部分组成:执行器和安全评估器。
Attack Executor(执行器):根据MTPU输出的图像侧战术指令,对参考图进行迭代式编辑,得到更新后的图像。
Safety Evaluator(评估器):对生成视频进行安全判定,如果成功,则将这次成功的记录写回SMB,作为下一轮策略进化/战术生成的“可复用经验”。
RunawayEvil最精彩的部分在于这三个单元构成了动态闭环:TAU的执行结果(无论成功或失败)都会反馈给SACU。若攻击成功,该经验被写入记忆库,成为未来攻击的养料;若失败,强化学习算法会调整策略权重。这种“生成-执行-反馈-进化”的机制,使RunawayEvil成为一个永远在学习、不断变强的对手,彻底打破了现有静态攻击框架的局限性。
RunawayEvil框架的越狱实验选取COCO2017(5000组训练样本、200组测试样本)与MM-SafetyBench(5040组跨场景图文对)两大数据集,以4个主流开源I2V模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)为攻击目标,采用Qwen-VL、LLaVA-Next、Gemma-3-VL三种安全评估器,使得评估更为全面可靠。在攻击成功率(ASR)等关键指标上,RunawayEvil有效超越了传统单模态越狱方法。
整体攻击效能领先:在COCO2017数据集上,传统方法的ASR峰值不足50%(例如PGJ在CogVideo-LLaVA上的47.0%),最低仅为6.5%(Sneaky在DynamiCrafter-Gemma上),而RunawayEvil在全部24组测试设置中均排名第一,持续领跑所有对比方法,验证了框架在不同风险场景下的强泛化性。
可视化实验效果领先:可视化实验结果显示,相比于传统单模态越狱方法,RunawayEvil能有效突破图生视频模型的跨模态防御机制,高效实施越狱攻击,生成更具毒性的NSFW视频,充分暴露了现有模型的脆弱性。
CogVideoX-5b-I2V上的越狱效果
Dynamicrafter上的越狱效果
RunawayEvil作为首个针对I2V生成模型的多模态自进化越狱框架,基于“策略-战术-行动”范式,通过SACU的自进化策略、MTPU的跨模态协同指令与TAU的闭环执行,成功突破了传统单模态静态攻击的局限。在主流I2V模型与安全评估器上,该框架实现了高达87.6%的平均攻击成功率,显著超越现有方法,为I2V模型漏洞分析提供了高效工具,也为构建稳健的多模态生成安全体系奠定了基础。
未来,研究团队将进一步适配更多I2V模型与复杂任务场景,基于框架揭示的漏洞特征探索针对性防御机制,深化模态协同策略的精细化优化,在保持高攻击效能的同时提升隐蔽性,同时设计出多模协同的高效防御方案,为多模态安全研究提供更全面的技术支撑。
本文由主机测评网于2026-03-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260330183.html