你是否曾在AI生成视频时,因内容前后矛盾而感到困扰?在交互式创作中,有时仅仅改动一句提示词,故事的发展就可能“脱轨”:一个角色离开画面后重新出现,却变得“面目全非”,仿佛换了演员;或者当你试图引入一个新角色,AI却频繁重复生成这个人物,甚至将多个角色的特征混为一谈。这种“金鱼记忆”式的缺陷,正是长视频生成在叙事连贯性方面的一大痛点。
如今,香港大学与快手可灵(Kling)团队联合推出了一项突破性方案——MemFlow,有望彻底解决上述难题。
MemFlow是一种创新的流式自适应记忆机制,它赋予AI强大的长时记忆与叙事连贯性,有望从根本上解决视频生成中的不一致问题。
为了生成长视频,主流模型普遍采用“分块生成”策略,即像播放幻灯片一样,逐段生成视频片段。然而,如何让后续片段精准地“记住”先前内容,成为一道难以逾越的技术鸿沟。以往的解决方案大致可分为几类,但都存在明显局限:
1. “只记开头”策略:一些模型仅保留第一个视频片段作为记忆,后续所有生成都以此为准。这种方法在单一场景下尚可,一旦故事发展,需要引入新角色或切换场景时,模型就会因记忆库中没有新信息而迷失,导致后续生成与先前内容在视觉和语义上均出现断层。
2. “一刀切”压缩策略:另一些方法试图将所有历史画面压缩成一个固定大小的“记忆包”。问题在于,不同叙事需求所关注的要点各不相同,“一刀切”压缩往往会丢失关键细节,导致主体特征遗忘和视觉质量漂移。
3. “各自为政”流程:还有一些流程试图将任务拆分,先让一个模型制作关键帧脚本,再让另一个模型根据脚本生成视频。这种方式下,各段脚本独立生成,最终拼接的视频缺乏全局一致性。
这些僵化的、非自适应的记忆策略,无法应对交互式创作中动态、不可预测的叙事需求,这正是导致交互式长视频生成一致性差的根源。
MemFlow跳出依赖固定记忆的传统模式,建立了一套以语义为桥梁的动态记忆系统,其优势主要体现在两方面:
1. 长时记忆:维持复杂场景下的视觉一致性
MemFlow实现了对物体形象的长期记忆能力。这意味着,即使在长视频中存在场景切换、镜头变换,甚至是角色插入或暂时消失等复杂情况,它也能记住每个主体的核心视觉特征。
2. 叙事连贯性:确保多主体故事线的清晰发展
MemFlow具备“导演思维”,能从全局角度理解剧情。在涉及多个主体的叙事中,它不会错误地重复引入已有角色,也不会发生主体混淆的“脸盲”问题。当用户引入新主体并对其展开后续描述时,MemFlow能准确理解并延续叙事,让故事流畅推进。
MemFlow的强大能力源于两大核心设计:
叙事自适应记忆(NAM):在生成新片段前,它会根据当前提示词,智能地从记忆库中检索出最相关的视觉记忆。这使其无论是延续旧角色还是描绘新互动,总能找到准确的视觉参考,从而维持一致性。这种设计使模型能在有限记忆容量下优先保留与当前叙事最相关的信息,在一致性和计算开销之间取得平衡。
稀疏记忆激活(SMA):为了兼顾效率,该机制会像聚光灯一样,只激活记忆中最关键的信息进行计算。这不仅避免了信息过载导致的混淆,还极大提升了生成速度,在保证高质量叙事的同时实现高效率。
为评估MemFlow的实际效果,研究团队进行了一系列详尽的定性和定量实验,其结果清晰展示了该模型在长视频生成领域的卓越性能。
在具有挑战性的“多提示词60秒长视频生成”任务中,MemFlow的数据表现尤为突出:
综合质量与美学评分表现出色:在VBench-Long评估体系下,MemFlow的质量总分(85.02)和美学小分(61.07)均位居所有对比模型之首,表明其生成的视频在视觉质量和美学呈现上具有出色水准。
长程语义一致性得到验证:通过逐段评估视频与文本匹配度的CLIP分数,可以发现一个关键现象:在视频后半段(如40-60秒),许多模型因误差累积导致语义一致性明显下滑,而MemFlow的分数持续保持高位。这反映了其动态记忆机制在维持长期叙事一致性方面的有效性,有助于缓解“越往后越乱”的问题。
一致性表现优异:在衡量核心能力的一致性评分上,MemFlow取得了96.60的高分,显著领先于其他对比模型。这直接说明,无论是角色、背景还是物体,MemFlow都能在复杂的叙事变化中保持视觉统一。
此外,在针对不同记忆机制的消融实验中,结果显示,MemFlow采用的“叙事自适应记忆+稀疏激活(NAM+SMA)”策略,相较于“无记忆”或仅“记住第一段(Frame Sink)”的方案,在主体一致性和背景一致性上均取得提升,同时还实现了比采用完整记忆库更高的运行效率。
除了数据指标,直观的视觉对比更清晰地展示了模型的实际能力:
避免叙事混乱:在一个引入“一位穿着休闲毛衣的女士”的多镜头场景中,其他模型在提示词切换后,出现了生成人物外貌不一致或重复引入主体的问题。而MemFlow则成功地在多个镜头中维持了同一位女士的形象,未见明显漂移。
精准的角色追踪与再现:以上对比图有效地展示了MemFlow在处理角色互动时的稳定性。无论是沙滩上玩耍的孩子与小狗,还是家庭装饰圣诞树的场景,MemFlow都能确保故事中的核心角色在多段视频中保持一致。相比之下,基线模型LongLive在切换提示词后引入了多余或不一致的新角色,造成叙事不连贯;其他模型则存在更严重的质量漂移和主体遗忘。
动态记忆的必要性展示:在对记忆机制的视觉对比中,“无记忆”的版本在切换提示词时出现了明显的场景不一致;仅“记住第一段”的方案无法保持后续新引入人物的特征。只有MemFlow能够平滑地承接剧情并保证主体一致性,这直观地说明了其动态记忆机制的有效性和必要性。
实验结果显示:在同样的多提示词长视频生成任务中,传统模型易出现主体漂移和角色混淆,而MemFlow则保持了更好的叙事连贯性和视觉一致性。更重要的是,MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比,性能损耗极小。它在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA水平。
由香港大学与快手可灵团队共同打造的MemFlow,通过其独特的动态记忆机制,将AI视频生成技术从“片段拼接”推向了“故事编写”的新高度。它标志着AI正从一个只能创作“概念视频”的画师,蜕变为一个能够驾驭复杂剧情、保持角色连贯的“叙事导演”。一个真正能够理解、记忆并连贯讲述故事的AI视频创作时代,正在到来。
Arxiv:https://arxiv.org/pdf/2512.14699
Project Page:https://sihuiji.github.io/MemFlow.github.io/
Github:https://github.com/KlingTeam/MemFlow
本文由主机测评网于2026-03-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260330165.html