当前位置:首页 > 科技资讯 > 正文

实时视频精准定位:AI新突破

还在视频里苦苦寻找特定事件?最新AI技术帮你实现秒级定位。

想象一下,安防监控中,人影一闪而过,利用新技术即可秒级调出“可疑聚众”的精准片段。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第1张

在VR训练场,戴上VR眼镜练习投篮,手机App输入与库里三分相似的动作。训练时,眼镜分析第一视角视频流,一旦动作、发力、弧线都神似库里,立刻高亮标记这段精彩瞬间。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第2张

这背后,是深圳北理莫斯科大学与阿德莱德大学研究团队的新成果——混合模态在线视频定位(OVG-HQ)。

用通俗易懂的话说,这项技术能让系统一边直播/录像,一边根据多种“线索”,包括文字、参考图、示范视频片段等,在实时视频流中精准定位并裁剪出你关心的完整事件。

论文已发表于ICCV2025。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第3张

此前方法存在两大缺陷:

“离线”处理慢:主流技术必须等视频录完才能分析,无法满足安防“秒级响应”、直播“即时重现”的需求。

“词穷”难精准:仅靠文字描述难以精准定义视觉世界的差异,很多细节“只可意会不可言传”。

OVG-HQ如何破解这些难题?

技术解析

研究团队表示,要实现“精准定位+多模态理解”,需克服两大挑战:

挑战一:保留历史信息

在处理实时视频流时,模型需确保历史关键信息不丢失,否则早期线索会被遗忘,导致误判。

挑战二:查询模态不均

同一用户意图可能对应不同长度的视频或图片,强弱模态的差异会影响模型精度。构建统一模型处理所有模态组合异常困难。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第4张

为系统性研究上述问题,团队构建了QVHighlights数据集和首个支持混合模态在线定位的基准集QVHighlights-Unify,扩充四种查询元素。

核心组件:

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第5张

1、参数化记忆模块(PMB)

step 1:记忆当前输入,通过参数压缩信息,采用重构损失自监督学习。更新记忆参数,保留当前和历史信息。

step 2:记忆增强处理,利用更新后的记忆参数增强当前输入,输出增强后的表征供后续使用。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第6张

2、混合模态蒸馏

step 1: 为丰富模态组合训练专家模型。

step 2: 以专家输出为软标签,引导其他模态模型,得到统一处理多种模态组合的通用模型。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第7张

实验效果

为衡量实时能力,团队引入时间衰减因子β,设计oR@n和omAP两项在线指标。

实验结果显示,使用混合模态蒸馏后,模型在弱模态处理上显著提升:Image-R提升8.98%,Image-G提升9.35%。

实时视频精准定位:AI新突破 实时视频 AI定位 混合模态 在线视频 第8张

参数化记忆模块效果优于ATT和LSTM, 以生成视频查询为例,PMB(20.13%)>LSTM(17.41%)>ATT(11.85%)。

作者及单位

曾润浩(深圳北理莫斯科大学)、毛嘉其(深圳大学)、赖铭浩(深圳大学)、Minh Hieu Phan(阿德莱德大学)、董延杰(深圳北理莫斯科大学)、王伟(深圳北理莫斯科大学)、陈奇(阿德莱德大学)、胡希平(深圳北理莫斯科大学)