当前位置:首页 > 科技资讯 > 正文

AI视频生成新突破:MemFlow实现叙事连贯性

你是否曾遇到过AI视频生成的不连贯问题?在交互式创作中,仅仅切换一句提示词,故事就可能瞬间“崩塌”:一个角色暂时离开画面后再次出现,却“面目全非”,仿佛换了演员;或者,当你尝试引入一个新角色,AI却在后续的剧情中反复“召唤”这个新人,甚至将多个角色的特征混淆在一起。这种“金鱼记忆”式的顽疾,正是长视频生成在叙事上的一大挑战。

现在,香港大学和快手可灵(Kling)团队的研究者们,为我们带来了突破性方案——MemFlow

AI视频生成新突破:MemFlow实现叙事连贯性 MemFlow AI视频生成 叙事连贯性 长视频生成 第1张

MemFlow是一种创新的流式自适应记忆机制,它赋予了AI强大的长时记忆与叙事连贯性,有望彻底克服上述难题。

流动的叙事 vs. 僵化的记忆

为了生成长视频,主流模型普遍采用“分块生成”的策略,然而,如何让后生成的片段精准地“记住”前面的内容,成为一大技术挑战。以往的方法各有局限:

1. “只记开头”的策略:一些模型只保留第一个视频片段作为记忆,后续生成容易迷失。

2. “一刀切”的压缩策略:将所有历史画面压缩成固定大小的“记忆包”,容易丢失关键细节。

3. “各自为政”的流程:将任务拆分,不同模型分别生成,拼接后缺乏全局一致性。

这些僵化的、非自适应的记忆策略,无法应对交互式创作中流动的、不可预测的叙事需求。

产生真正的长时记忆与叙事连贯性

MemFlow跳出依赖死板、固定记忆的传统模式,建立了一套动态、以语义作为桥梁的记忆系统。其优势主要体现在:

1. 长时记忆:维持复杂场景下的视觉一致性

MemFlow获得了物体形象的长期记忆能力。即使在长视频中存在复杂情况,它也能记住每个主体的核心视觉特征。

2. 叙事连贯性:确保多主体故事线的清晰发展

学习导演思维,从全局角度理解剧情。MemFlow能准确理解并延续叙事,让故事流畅地向前推进。

自适应的高效动态记忆

AI视频生成新突破:MemFlow实现叙事连贯性 MemFlow AI视频生成 叙事连贯性 长视频生成 第2张

MemFlow的强大能力源于两大核心设计:

叙事自适应记忆(NAM):智能检索相关视觉记忆,维持一致性。

稀疏记忆激活(SMA):只激活最关键信息,提升生成速度。

从定量数据到定性对比的全面验证

定量分析:关键指标的显著提升

AI视频生成新突破:MemFlow实现叙事连贯性 MemFlow AI视频生成 叙事连贯性 长视频生成 第3张

综合质量与美学评分表现出色

长程语义一致性得到验证

一致性表现优异

定性分析:视觉对比直观呈现模型优势

AI视频生成新突破:MemFlow实现叙事连贯性 MemFlow AI视频生成 叙事连贯性 长视频生成 第4张

效率评估

实验结果显示:在同样的多提示词长视频生成任务中,MemFlow保持了更好的叙事连贯性和视觉一致性。

开启长视频叙事新纪元

由香港大学与快手可灵团队共同打造的MemFlow,通过其独特的动态记忆机制,将AI视频生成技术推向了新高度。

Arxiv链接

项目页面

Github链接