当前位置:首页 > 科技资讯 > 正文

EgoLCD:解决长视频生成“内容漂移”难题

【导读】视频生成模型常常遭遇“记忆挑战”?生成几秒钟后物体变形、背景穿帮?北大等研究机构联合发布EgoLCD,借鉴人类“长短时记忆”机制,引入稀疏KV缓存与LoRA动态适应架构,彻底攻克长视频“内容漂移”难题,在EgoVid-5M基准上刷新SOTA!让AI如人类般拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的兴起,视频生成正由“静态生动”向“动态世界模拟器”迈进。

然而,在追求“无限时长”视频生成的过程中,一个棘手的问题——“内容漂移”(Content Drift)却悄然出现。

你是否留意到,现有视频生成模型在生成长视频时,常如“金鱼记忆”般短暂:前一秒是蓝色瓷砖,下一秒却成了白色墙壁;手中的杯子,握一会儿就变形为怪状;

对于第一人称(Egocentric)视角这种变化多端、交互复杂的场景,模型更易迷失方向。

生成长视频并非难事,难的是“持之以恒”。

近期,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,创新性地提出了长上下文扩散模型EgoLCD,不仅融入了“类脑长短时记忆”设计,还引入了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时“铭记”场景布局与物体特征。

EgoLCD:解决长视频生成“内容漂移”难题 EgoLCD 视频生成 内容漂移 具身智能 第1张

论文地址:https://arxiv.org/abs/2512.04515

项目主页:https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中,EgoLCD在时间一致性生成质量上全面超越OpenSora、SVD等主流模型,向构建具身智能世界模型迈出关键步伐!

EgoLCD:解决长视频生成“内容漂移”难题 EgoLCD 视频生成 内容漂移 具身智能 第2张

核心挑战:AI为何会“失忆”?

在长视频生成中,传统自回归(AR)模型易出现生成式遗忘

这犹如让人蒙眼作画,画着画着就偏离初衷。对于第一人称视频(如Ego4D数据集)而言,剧烈的相机抖动与复杂的手物交互,使得这种“漂移”更为致命。

尽管传统Transformer具备注意力机制,但面对长序列时,计算量呈二次方爆炸,难以存储所有历史信息;而简单的滑动窗口则会丢失早期关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为“高效且稳定的内存管理问题”。

EgoLCD:解决长视频生成“内容漂移”难题 EgoLCD 视频生成 内容漂移 具身智能 第3张

长短时记忆系统 (Long-Short Memory)

EgoLCD 设计了一种类似人类大脑的双重记忆机制:

  • 长期记忆(Long-Term Sparse KV Cache): 不再盲目缓存所有Token,而是利用稀疏注意力机制,仅存储与检索最关键的“语义锚点”(例如房间布局、关键物体特征)。这不仅大幅降低显存占用,还确保全局一致性。
  • 短期记忆(Attention+LoRA): 利用LoRA作为隐式记忆单元,增强短窗口注意力的适应性,迅速捕捉当前视角的剧烈变化(如手的快速移动)。

总结:长期记忆负责“稳”,短期记忆负责“快”。

记忆调节损失 (Memory Regulation Loss)

为防止模型在训练时“偷懒”,团队设计了一种特殊损失函数。它强制模型生成的每一帧,都必须与从长期记忆库中检索到的“历史片段”保持语义对齐。

这犹如给AI戴上“紧箍咒”,一旦其生成的画面开始“胡编乱造”(漂移),Loss便会惩罚它,迫使其回归原设定。

结构化叙事提示 (Structured Narrative Prompting, SNP)

EgoLCD摒弃简单文本提示,采用分段式、包含时间逻辑的结构化剧本。

训练时:使用GPT-4o生成详尽的帧级描述,训练模型将视觉细节与文字严格对应。

推理时:SNP作为“外部显性记忆”,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线与视觉风格的连贯。

性能卓越

EgoLCD:解决长视频生成“内容漂移”难题 EgoLCD 视频生成 内容漂移 具身智能 第4张

EgoLCD:解决长视频生成“内容漂移”难题 EgoLCD 视频生成 内容漂移 具身智能 第5张

为公正评测“不遗忘”能力,研究团队甚至研发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用于惩罚那些“虎头蛇尾”、质量逐渐下滑的模型。

实验结果显示:

一致性碾压:在NRDP-Subject(主体一致性)与NRDP-Background(背景一致性)上,EgoLCD展现压倒性优势,漂移率极低。

超越基线:相较于SVD、DynamiCrafter与OpenSora等顶尖模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)与动作一致性指标均居榜首。

超长生成:成功展示长达60秒的连贯视频生成(如演讲者从黄昏讲至深夜),人物着装、背景楼宇细节始终如一,未发生形变!

“黑客帝国”之路:迈向具身智能

EgoLCD不仅是一款视频生成模型,更是一款“第一人称世界模拟器”。

通过生成长时程、高一致性的第一人称视频,EgoLCD可为具身智能(机器人)提供海量训练数据,模拟复杂的物理交互与长序列任务(如烹饪、修理)。

正如Sora让人们窥见世界模型的雏形,EgoLCD则让“通过视频教会机器人理解世界”的梦想变得前所未有的清晰。

参考资料:https://arxiv.org/abs/2512.04515