当前位置：首页 > 科技资讯 > 正文

EgoLCD：解决长视频生成“内容漂移”难题

【导读】视频生成模型常常遭遇“记忆挑战”？生成几秒钟后物体变形、背景穿帮？北大等研究机构联合发布EgoLCD，借鉴人类“长短时记忆”机制，引入稀疏KV缓存与LoRA动态适应架构，彻底攻克长视频“内容漂移”难题，在EgoVid-5M基准上刷新SOTA！让AI如人类般拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的兴起，视频生成正由“静态生动”向“动态世界模拟器”迈进。

然而，在追求“无限时长”视频生成的过程中，一个棘手的问题——“内容漂移”（Content Drift）却悄然出现。

你是否留意到，现有视频生成模型在生成长视频时，常如“金鱼记忆”般短暂：前一秒是蓝色瓷砖，下一秒却成了白色墙壁；手中的杯子，握一会儿就变形为怪状；

对于第一人称（Egocentric）视角这种变化多端、交互复杂的场景，模型更易迷失方向。

生成长视频并非难事，难的是“持之以恒”。

近期，来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队，创新性地提出了长上下文扩散模型EgoLCD，不仅融入了“类脑长短时记忆”设计，还引入了一套全新的结构化叙事Promp方案，成功让AI在生成长视频时“铭记”场景布局与物体特征。

EgoLCD：解决长视频生成“内容漂移”难题 EgoLCD 视频生成内容漂移具身智能第1张

论文地址：https://arxiv.org/abs/2512.04515

项目主页：https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中，EgoLCD在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型，向构建具身智能世界模型迈出关键步伐！

EgoLCD：解决长视频生成“内容漂移”难题 EgoLCD 视频生成内容漂移具身智能第2张

核心挑战：AI为何会“失忆”？

在长视频生成中，传统自回归（AR）模型易出现生成式遗忘。

这犹如让人蒙眼作画，画着画着就偏离初衷。对于第一人称视频（如Ego4D数据集）而言，剧烈的相机抖动与复杂的手物交互，使得这种“漂移”更为致命。

尽管传统Transformer具备注意力机制，但面对长序列时，计算量呈二次方爆炸，难以存储所有历史信息；而简单的滑动窗口则会丢失早期关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为“高效且稳定的内存管理问题”。

EgoLCD：解决长视频生成“内容漂移”难题 EgoLCD 视频生成内容漂移具身智能第3张

EgoLCD 设计了一种类似人类大脑的双重记忆机制：

长期记忆（Long-Term Sparse KV Cache）： 不再盲目缓存所有Token，而是利用稀疏注意力机制，仅存储与检索最关键的“语义锚点”（例如房间布局、关键物体特征）。这不仅大幅降低显存占用，还确保全局一致性。
短期记忆（Attention+LoRA）： 利用LoRA作为隐式记忆单元，增强短窗口注意力的适应性，迅速捕捉当前视角的剧烈变化（如手的快速移动）。

总结：长期记忆负责“稳”，短期记忆负责“快”。