当前位置：首页 > 科技资讯 > 正文

VMem：几何记忆索引，提升长时一致性

【导读】VMem用3D几何记忆索引替代短窗上下文，让模型在小上下文里也能保持长时一致性。实测4.2s/帧，比常规21帧上下文的管线快~12倍。

当你用一张图「逛」一套房子，希望回到起点时厨房看起来还是原来的厨房——这对视频生成模型来说并不容易。

牛津大学团队提出VMem（Surfel-Indexed View Memory）：把「看过什么」记录到surfel（几何小片）里，只取真正相关的过往视角当上下文，实现了「一致性更强、资源更省、速度更快」的效果。

VMem：几何记忆索引，提升长时一致性 VMem 几何记忆长时一致性视频生成第1张

· 几何做「记忆目录」

把过去生成的视图按3D表面元素（surfel）索引；每个surfel记录「哪几帧见过我」。新视角来时，渲染surfel看谁「出现频率最高」，直接取这些帧当参考。

· 小上下文，大一致性

在RealEstate10K、Tanks and Temples等基准上，VMem在长序列回访同一位置时显著更稳。

· 即插即用

记忆模块可挂在SEVA等图像集生成骨干上；把上下文从K=17减到K=4仍能守住指标，时延砍到4.2s/帧（RTX 4090）。

为什么「回头看」这么难？

两类主流路线各有痛点：重建+外延补洞和多视图/视频式条件生成。

VMem重新审视第二类：与其看「最近」，不如看「最相关」。相关性的度量来自几何可见性。

VMem：几何记忆索引，提升长时一致性 VMem 几何记忆长时一致性视频生成第2张

写入：新生成的帧用点图预测得到稀疏点云→转成surfel→把「看到我的帧编号」写进surfel的索引集合；相近surfel做合并；整体放入八叉树方便检索。

读取：面对一组待生成相机位姿，先求一个平均相机，从该视角渲染surfel属性图，统计每个像素投票到的「出现过的帧编号」，挑Top-K最高频作为参考视图集合；对位姿相近的参考做NMS去冗余。

生成：把（Top-K参考图像+参考/目标相机的Plücker表达）喂给图像集生成器，一次自回归生成M帧。

世界模型通常靠隐式隐状态来跨时保留信息，但在长视野、部分可观测的场景中，容易遗忘早期细节且不可解释。

VMem提供显式、可查询、几何对齐的外部记忆：以surfel为「记忆索引」，把可见性线索结构化存起来。这样做带来三点直接收益：

外部记忆：

检索前端：

策略+世界模型联合：

非实时：

数据域：

评测标准：

免费服务器阿里云服务器服务器教程

本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440782.html