【导读】视频生成模型常常遭遇“记忆挑战”?生成几秒钟后物体变形、背景穿帮?北大等研究机构联合发布EgoLCD,借鉴人类“长短时记忆”机制,引入稀疏KV缓存与LoRA动态适应架构,彻底攻克长视频“内容漂移”难题,在EgoVid-5M基准上刷新SOTA!让AI如人类般拥有连贯的第一人称视角记忆。
随着Sora、Genie等模型的兴起,视频生成正由“静态生动”向“动态世界模拟器”迈进。
然而,在追求“无限时长”视频生成的过程中,一个棘手的问题——“内容漂移”(Content Drift)却悄然出现。
你是否留意到,现有视频生成模型在生成长视频时,常如“金鱼记忆”般短暂:前一秒是蓝色瓷砖,下一秒却成了白色墙壁;手中的杯子,握一会儿就变形为怪状;
对于第一人称(Egocentric)视角这种变化多端、交互复杂的场景,模型更易迷失方向。
生成长视频并非难事,难的是“持之以恒”。
近期,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,创新性地提出了长上下文扩散模型EgoLCD,不仅融入了“类脑长短时记忆”设计,还引入了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时“铭记”场景布局与物体特征。
论文地址:https://arxiv.org/abs/2512.04515
项目主页:https://aigeeksgroup.github.io/EgoLCD
在EgoVid-5M基准测试中,EgoLCD在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型,向构建具身智能世界模型迈出关键步伐!
在长视频生成中,传统自回归(AR)模型易出现生成式遗忘。
这犹如让人蒙眼作画,画着画着就偏离初衷。对于第一人称视频(如Ego4D数据集)而言,剧烈的相机抖动与复杂的手物交互,使得这种“漂移”更为致命。
尽管传统Transformer具备注意力机制,但面对长序列时,计算量呈二次方爆炸,难以存储所有历史信息;而简单的滑动窗口则会丢失早期关键信息。
EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为“高效且稳定的内存管理问题”。
EgoLCD 设计了一种类似人类大脑的双重记忆机制:
总结:长期记忆负责“稳”,短期记忆负责“快”。
为防止模型在训练时“偷懒”,团队设计了一种特殊损失函数。它强制模型生成的每一帧,都必须与从长期记忆库中检索到的“历史片段”保持语义对齐。
这犹如给AI戴上“紧箍咒”,一旦其生成的画面开始“胡编乱造”(漂移),Loss便会惩罚它,迫使其回归原设定。
EgoLCD摒弃简单文本提示,采用分段式、包含时间逻辑的结构化剧本。
训练时:使用GPT-4o生成详尽的帧级描述,训练模型将视觉细节与文字严格对应。
推理时:SNP作为“外部显性记忆”,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线与视觉风格的连贯。
为公正评测“不遗忘”能力,研究团队甚至研发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用于惩罚那些“虎头蛇尾”、质量逐渐下滑的模型。
实验结果显示:
一致性碾压:在NRDP-Subject(主体一致性)与NRDP-Background(背景一致性)上,EgoLCD展现压倒性优势,漂移率极低。
超越基线:相较于SVD、DynamiCrafter与OpenSora等顶尖模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)与动作一致性指标均居榜首。
超长生成:成功展示长达60秒的连贯视频生成(如演讲者从黄昏讲至深夜),人物着装、背景楼宇细节始终如一,未发生形变!
EgoLCD不仅是一款视频生成模型,更是一款“第一人称世界模拟器”。
通过生成长时程、高一致性的第一人称视频,EgoLCD可为具身智能(机器人)提供海量训练数据,模拟复杂的物理交互与长序列任务(如烹饪、修理)。
正如Sora让人们窥见世界模型的雏形,EgoLCD则让“通过视频教会机器人理解世界”的梦想变得前所未有的清晰。
参考资料:https://arxiv.org/abs/2512.04515
本文由主机测评网于2026-06-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260646912.html