【导读】视频生成模型为何总是“记性不佳”?生成数秒后物体变形、背景错乱?北京大学、中山大学等机构联合推出EgoLCD,借鉴人类“长短时记忆”机制,首创稀疏KV缓存+LoRA动态适应架构,彻底攻克长视频“内容漂移”难题,在EgoVid-5M基准上刷新SOTA!让AI能够像人类一样拥有连贯的第一人称视角记忆。
随着Sora、Genie等模型的爆发,视频生成正从“图生动”迈向“世界模拟器”的宏大目标。
然而,在通往“无限时长”视频生成的路上,始终横亘着一只拦路虎——“内容漂移”(Content Drift)。
你是否发现,现有的视频生成模型在生成长视频时,往往也是“金鱼记忆”:前一秒还是蓝色瓷砖,后一秒变成了白色墙壁;原本手中的杯子,拿着拿着就变成了奇怪的形状;
对于第一人称(Egocentric)视角这种晃动剧烈、交互复杂的场景,模型更是极易“迷失”。
生成长视频不难,难的是“不忘初心”。
近日,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,提出了一种全新的长上下文扩散模型EgoLCD,不仅引入了“类脑的长短时记忆”设计,还提出了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时“记住”场景布局和物体特征。
论文地址:https://arxiv.org/abs/2512.04515
项目主页:https://aigeeksgroup.github.io/EgoLCD
在EgoVid-5M基准测试中,EgoLCD在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型,向构建具身智能世界模型迈出了关键一步!
在长视频生成中,传统的自回归(AR)模型极易出现生成式遗忘。
这如同让一个人蒙眼作画,画着画着就偏离了最初的构图。对于第一人称视频(如Ego4D数据集)而言,剧烈的相机抖动和复杂的手物交互,使得这种“漂移”更加致命。
传统的Transformer虽有注意力机制,但面对长序列,计算量呈二次方爆炸,根本无法存储那么多历史信息;而简单的滑动窗口又会丢弃早期的关键信息。
EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个“高效且稳定的内存管理问题”。
EgoLCD 设计了一种类似人类大脑的双重记忆机制:
一句话总结:长期记忆负责“稳”,短期记忆负责“快”。
为防止模型在训练时“偷懒”,团队设计了一种特殊的损失函数。它强制模型生成的每一帧,都要与从长期记忆库中检索到的“历史片段”保持语义对齐。
这如同给AI戴上了“紧箍咒”,一旦它生成的画面开始“胡编乱造”(漂移),Loss就会施以惩罚,迫使其回归原本的设定。
EgoLCD摒弃了简单的文本提示,转而采用一种分段式的、包含时间逻辑的结构化剧本。
训练时:使用GPT-4o生成极其详尽的帧级描述,训练模型将视觉细节与文字严格对应。
推理时:SNP充当“外部显性记忆”,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线和视觉风格的连贯。
为了公正地评测“不遗忘”的能力,研究团队甚至专门开发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用来惩罚那些“虎头蛇尾”、越往后质量越差的模型。
实验结果显示:
一致性碾压:在NRDP-Subject(主体一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了压倒性优势,漂移率极低。
超越基线:相比SVD、DynamiCrafter和OpenSora等顶流模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)和动作一致性指标均为最佳。
极长生成:展示了长达60秒的连贯视频生成(如一名演讲者从黄昏讲到深夜),人物衣着、背景楼宇细节始终如一,毫无形变!
EgoLCD不仅仅是一个视频生成模型,它更像是一个“第一人称世界模拟器”。
通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。
正如Sora让人们看到了世界模型的雏形,EgoLCD则让“通过视频教会机器人理解世界”的梦想,变得前所未有的清晰。
参考资料:https://arxiv.org/abs/2512.04515
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260329842.html