当前位置:首页 > 科技资讯 > 正文

VMem:几何记忆索引,提升长时一致性

【导读】VMem用3D几何记忆索引替代短窗上下文,让模型在小上下文里也能保持长时一致性。实测4.2s/帧,比常规21帧上下文的管线快~12倍。

当你用一张图「逛」一套房子,希望回到起点时厨房看起来还是原来的厨房——这对视频生成模型来说并不容易。

牛津大学团队提出VMem(Surfel-Indexed View Memory):把「看过什么」记录到surfel(几何小片)里,只取真正相关的过往视角当上下文,实现了「一致性更强、资源更省、速度更快」的效果。

VMem:几何记忆索引,提升长时一致性 VMem 几何记忆 长时一致性 视频生成 第1张

论文链接:https://arxiv.org/abs/2506.18903

· 几何做「记忆目录」

把过去生成的视图按3D表面元素(surfel)索引;每个surfel记录「哪几帧见过我」。新视角来时,渲染surfel看谁「出现频率最高」,直接取这些帧当参考。

· 小上下文,大一致性

RealEstate10KTanks and Temples等基准上,VMem在长序列回访同一位置时显著更稳。

· 即插即用

记忆模块可挂在SEVA等图像集生成骨干上;把上下文从K=17减到K=4仍能守住指标,时延砍到4.2s/帧(RTX 4090)

为什么「回头看」这么难?

两类主流路线各有痛点:重建+外延补洞和多视图/视频式条件生成。

  • 重建+外延补洞:误差会累积;
  • 多视图/视频式条件生成:吃很多参考帧,算力开销大。

VMem重新审视第二类:与其看「最近」,不如看「最相关」。相关性的度量来自几何可见性。

VMem:几何记忆索引,提升长时一致性 VMem 几何记忆 长时一致性 视频生成 第2张

写入:新生成的帧用点图预测得到稀疏点云→转成surfel→把「看到我的帧编号」写进surfel的索引集合;相近surfel做合并;整体放入八叉树方便检索。

读取:面对一组待生成相机位姿,先求一个平均相机,从该视角渲染surfel属性图,统计每个像素投票到的「出现过的帧编号」,挑Top-K最高频作为参考视图集合;对位姿相近的参考做NMS去冗余。

生成:把(Top-K参考图像+参考/目标相机的Plücker表达)喂给图像集生成器,一次自回归生成M帧。

向世界模型的可插拔记忆层

为什么世界模型需要这样的记忆?

世界模型通常靠隐式隐状态来跨时保留信息,但在长视野、部分可观测的场景中,容易遗忘早期细节且不可解释。

VMem提供显式、可查询、几何对齐的外部记忆:以surfel为「记忆索引」,把可见性线索结构化存起来。这样做带来三点直接收益:

  • 长时一致性:记忆容量与步数解耦;
  • 可解释与可裁剪:按可见性投票做检索;
  • 高效取证:大幅缩小上下文与算力。

如何接入现有世界模型?(三种常见用法)

外部记忆:

检索前端:

策略+世界模型联合:

实验与结果

标准长期设置

回环轨迹

和谁不一样?

局限与展望

非实时:

数据域:

评测标准: