当前位置:首页 > 科技资讯 > 正文

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式

【导读】视频生成模型为何总是“记性不佳”?生成数秒后物体变形、背景错乱?北京大学、中山大学等机构联合推出EgoLCD,借鉴人类“长短时记忆”机制,首创稀疏KV缓存+LoRA动态适应架构,彻底攻克长视频“内容漂移”难题,在EgoVid-5M基准上刷新SOTA!让AI能够像人类一样拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的爆发,视频生成正从“图生动”迈向“世界模拟器”的宏大目标。

然而,在通往“无限时长”视频生成的路上,始终横亘着一只拦路虎——“内容漂移”(Content Drift)。

你是否发现,现有的视频生成模型在生成长视频时,往往也是“金鱼记忆”:前一秒还是蓝色瓷砖,后一秒变成了白色墙壁;原本手中的杯子,拿着拿着就变成了奇怪的形状;

对于第一人称(Egocentric)视角这种晃动剧烈、交互复杂的场景,模型更是极易“迷失”。

生成长视频不难,难的是“不忘初心”。

近日,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,提出了一种全新的长上下文扩散模型EgoLCD,不仅引入了“类脑的长短时记忆”设计,还提出了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时“记住”场景布局和物体特征。

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式 EgoLCD  长视频生成 内容漂移 长短时记忆 第1张

论文地址:https://arxiv.org/abs/2512.04515

项目主页:https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中,EgoLCD在时间一致性生成质量上全面超越OpenSora、SVD等主流模型,向构建具身智能世界模型迈出了关键一步!

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式 EgoLCD  长视频生成 内容漂移 长短时记忆 第2张

核心痛点,AI为什么会“失忆”?

在长视频生成中,传统的自回归(AR)模型极易出现生成式遗忘

这如同让一个人蒙眼作画,画着画着就偏离了最初的构图。对于第一人称视频(如Ego4D数据集)而言,剧烈的相机抖动和复杂的手物交互,使得这种“漂移”更加致命。

传统的Transformer虽有注意力机制,但面对长序列,计算量呈二次方爆炸,根本无法存储那么多历史信息;而简单的滑动窗口又会丢弃早期的关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个“高效且稳定的内存管理问题”。

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式 EgoLCD  长视频生成 内容漂移 长短时记忆 第3张

长短时记忆系统 (Long-Short Memory) 

EgoLCD 设计了一种类似人类大脑的双重记忆机制:

  • 长期记忆(Long-Term Sparse KV Cache): 不再傻傻地缓存所有Token,而是利用稀疏注意力机制,只存储和检索最关键的“语义锚点”(比如房间的布局、关键物体的特征)。此举不仅大幅降低显存占用,还锁死了全局一致性。
  • 短期记忆(Attention+LoRA): 利用LoRA作为隐式记忆单元,增强短窗口注意力的适应性,快速捕捉当前视角的剧烈变化(如手的快速移动)。

一句话总结:长期记忆负责“稳”,短期记忆负责“快”。

记忆调节损失 (Memory Regulation Loss)

为防止模型在训练时“偷懒”,团队设计了一种特殊的损失函数。它强制模型生成的每一帧,都要与从长期记忆库中检索到的“历史片段”保持语义对齐。

这如同给AI戴上了“紧箍咒”,一旦它生成的画面开始“胡编乱造”(漂移),Loss就会施以惩罚,迫使其回归原本的设定。

结构化叙事提示 (Structured Narrative Prompting, SNP) 

EgoLCD摒弃了简单的文本提示,转而采用一种分段式的、包含时间逻辑的结构化剧本。

训练时:使用GPT-4o生成极其详尽的帧级描述,训练模型将视觉细节与文字严格对应。

推理时:SNP充当“外部显性记忆”,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线和视觉风格的连贯。

性能炸裂

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式 EgoLCD  长视频生成 内容漂移 长短时记忆 第4张

EgoLCD:让AI视频生成不再“失忆”,北大联合中大等提出长时记忆新范式 EgoLCD  长视频生成 内容漂移 长短时记忆 第5张

为了公正地评测“不遗忘”的能力,研究团队甚至专门开发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用来惩罚那些“虎头蛇尾”、越往后质量越差的模型。

实验结果显示:

一致性碾压:在NRDP-Subject(主体一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了压倒性优势,漂移率极低。

超越基线:相比SVD、DynamiCrafter和OpenSora等顶流模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)和动作一致性指标均为最佳。

极长生成:展示了长达60秒的连贯视频生成(如一名演讲者从黄昏讲到深夜),人物衣着、背景楼宇细节始终如一,毫无形变!

通往具身智能的“黑客帝国”

EgoLCD不仅仅是一个视频生成模型,它更像是一个“第一人称世界模拟器”。

通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。

正如Sora让人们看到了世界模型的雏形,EgoLCD则让“通过视频教会机器人理解世界”的梦想,变得前所未有的清晰。

参考资料:https://arxiv.org/abs/2512.04515