还在视频里苦苦寻找特定事件?最新AI技术帮你实现秒级定位。
想象一下,安防监控中,人影一闪而过,利用新技术即可秒级调出“可疑聚众”的精准片段。
在VR训练场,戴上VR眼镜练习投篮,手机App输入与库里三分相似的动作。训练时,眼镜分析第一视角视频流,一旦动作、发力、弧线都神似库里,立刻高亮标记这段精彩瞬间。
这背后,是深圳北理莫斯科大学与阿德莱德大学研究团队的新成果——混合模态在线视频定位(OVG-HQ)。
用通俗易懂的话说,这项技术能让系统一边直播/录像,一边根据多种“线索”,包括文字、参考图、示范视频片段等,在实时视频流中精准定位并裁剪出你关心的完整事件。
论文已发表于ICCV2025。
此前方法存在两大缺陷:
“离线”处理慢:主流技术必须等视频录完才能分析,无法满足安防“秒级响应”、直播“即时重现”的需求。
“词穷”难精准:仅靠文字描述难以精准定义视觉世界的差异,很多细节“只可意会不可言传”。
OVG-HQ如何破解这些难题?
研究团队表示,要实现“精准定位+多模态理解”,需克服两大挑战:
挑战一:保留历史信息
在处理实时视频流时,模型需确保历史关键信息不丢失,否则早期线索会被遗忘,导致误判。
挑战二:查询模态不均
同一用户意图可能对应不同长度的视频或图片,强弱模态的差异会影响模型精度。构建统一模型处理所有模态组合异常困难。
为系统性研究上述问题,团队构建了QVHighlights数据集和首个支持混合模态在线定位的基准集QVHighlights-Unify,扩充四种查询元素。
核心组件:
1、参数化记忆模块(PMB)
step 1:记忆当前输入,通过参数压缩信息,采用重构损失自监督学习。更新记忆参数,保留当前和历史信息。
step 2:记忆增强处理,利用更新后的记忆参数增强当前输入,输出增强后的表征供后续使用。
2、混合模态蒸馏
step 1: 为丰富模态组合训练专家模型。
step 2: 以专家输出为软标签,引导其他模态模型,得到统一处理多种模态组合的通用模型。
为衡量实时能力,团队引入时间衰减因子β,设计oR@n和omAP两项在线指标。
实验结果显示,使用混合模态蒸馏后,模型在弱模态处理上显著提升:Image-R提升8.98%,Image-G提升9.35%。
参数化记忆模块效果优于ATT和LSTM, 以生成视频查询为例,PMB(20.13%)>LSTM(17.41%)>ATT(11.85%)。
曾润浩(深圳北理莫斯科大学)、毛嘉其(深圳大学)、赖铭浩(深圳大学)、Minh Hieu Phan(阿德莱德大学)、董延杰(深圳北理莫斯科大学)、王伟(深圳北理莫斯科大学)、陈奇(阿德莱德大学)、胡希平(深圳北理莫斯科大学)
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441478.html