【导读】VMem用3D几何记忆索引替代短窗上下文,让模型在小上下文里也能保持长时一致性。实测4.2s/帧,比常规21帧上下文的管线快~12倍。
当你用一张图「逛」一套房子,希望回到起点时厨房看起来还是原来的厨房——这对视频生成模型来说并不容易。
牛津大学团队提出VMem(Surfel-Indexed View Memory):把「看过什么」记录到surfel(几何小片)里,只取真正相关的过往视角当上下文,实现了「一致性更强、资源更省、速度更快」的效果。
论文链接:https://arxiv.org/abs/2506.18903
· 几何做「记忆目录」
把过去生成的视图按3D表面元素(surfel)索引;每个surfel记录「哪几帧见过我」。新视角来时,渲染surfel看谁「出现频率最高」,直接取这些帧当参考。
· 小上下文,大一致性
在RealEstate10K、Tanks and Temples等基准上,VMem在长序列回访同一位置时显著更稳。
· 即插即用
记忆模块可挂在SEVA等图像集生成骨干上;把上下文从K=17减到K=4仍能守住指标,时延砍到4.2s/帧(RTX 4090)。
两类主流路线各有痛点:重建+外延补洞和多视图/视频式条件生成。
VMem重新审视第二类:与其看「最近」,不如看「最相关」。相关性的度量来自几何可见性。
写入:新生成的帧用点图预测得到稀疏点云→转成surfel→把「看到我的帧编号」写进surfel的索引集合;相近surfel做合并;整体放入八叉树方便检索。
读取:面对一组待生成相机位姿,先求一个平均相机,从该视角渲染surfel属性图,统计每个像素投票到的「出现过的帧编号」,挑Top-K最高频作为参考视图集合;对位姿相近的参考做NMS去冗余。
生成:把(Top-K参考图像+参考/目标相机的Plücker表达)喂给图像集生成器,一次自回归生成M帧。
世界模型通常靠隐式隐状态来跨时保留信息,但在长视野、部分可观测的场景中,容易遗忘早期细节且不可解释。
VMem提供显式、可查询、几何对齐的外部记忆:以surfel为「记忆索引」,把可见性线索结构化存起来。这样做带来三点直接收益:
外部记忆:
检索前端:
策略+世界模型联合:
非实时:
数据域:
评测标准:
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440782.html