当前位置：首页 > 科技资讯 > 正文

EgoLCD：让AI视频生成不再“失忆”，北大联合中大等提出长时记忆新范式

主机测评网
科技资讯
2026-03-09
184

【导读】视频生成模型为何总是“记性不佳”？生成数秒后物体变形、背景错乱？北京大学、中山大学等机构联合推出EgoLCD，借鉴人类“长短时记忆”机制，首创稀疏KV缓存+LoRA动态适应架构，彻底攻克长视频“内容漂移”难题，在EgoVid-5M基准上刷新SOTA！让AI能够像人类一样拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的爆发，视频生成正从“图生动”迈向“世界模拟器”的宏大目标。

然而，在通往“无限时长”视频生成的路上，始终横亘着一只拦路虎——“内容漂移”（Content Drift）。

你是否发现，现有的视频生成模型在生成长视频时，往往也是“金鱼记忆”：前一秒还是蓝色瓷砖，后一秒变成了白色墙壁；原本手中的杯子，拿着拿着就变成了奇怪的形状；

对于第一人称（Egocentric）视角这种晃动剧烈、交互复杂的场景，模型更是极易“迷失”。

生成长视频不难，难的是“不忘初心”。

近日，来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队，提出了一种全新的长上下文扩散模型EgoLCD，不仅引入了“类脑的长短时记忆”设计，还提出了一套全新的结构化叙事Promp方案，成功让AI在生成长视频时“记住”场景布局和物体特征。

EgoLCD：让AI视频生成不再“失忆”，北大联合中大等提出长时记忆新范式 EgoLCD 长视频生成内容漂移长短时记忆第1张

论文地址：https://arxiv.org/abs/2512.04515

项目主页：https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中，EgoLCD在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型，向构建具身智能世界模型迈出了关键一步！

EgoLCD：让AI视频生成不再“失忆”，北大联合中大等提出长时记忆新范式 EgoLCD 长视频生成内容漂移长短时记忆第2张

核心痛点，AI为什么会“失忆”？

在长视频生成中，传统的自回归（AR）模型极易出现生成式遗忘。

这如同让一个人蒙眼作画，画着画着就偏离了最初的构图。对于第一人称视频（如Ego4D数据集）而言，剧烈的相机抖动和复杂的手物交互，使得这种“漂移”更加致命。

传统的Transformer虽有注意力机制，但面对长序列，计算量呈二次方爆炸，根本无法存储那么多历史信息；而简单的滑动窗口又会丢弃早期的关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个“高效且稳定的内存管理问题”。

EgoLCD：让AI视频生成不再“失忆”，北大联合中大等提出长时记忆新范式 EgoLCD 长视频生成内容漂移长短时记忆第3张

长短时记忆系统 (Long-Short Memory)

EgoLCD 设计了一种类似人类大脑的双重记忆机制：

长期记忆（Long-Term Sparse KV Cache）： 不再傻傻地缓存所有Token，而是利用稀疏注意力机制，只存储和检索最关键的“语义锚点”（比如房间的布局、关键物体的特征）。此举不仅大幅降低显存占用，还锁死了全局一致性。
短期记忆（Attention+LoRA）： 利用LoRA作为隐式记忆单元，增强短窗口注意力的适应性，快速捕捉当前视角的剧烈变化（如手的快速移动）。

一句话总结：长期记忆负责“稳”，短期记忆负责“快”。