当前位置：首页 > 科技资讯 > 正文

实时视频精准定位：AI新突破

主机测评网
科技资讯
2026-04-29
571

还在视频里苦苦寻找特定事件？最新AI技术帮你实现秒级定位。

想象一下，安防监控中，人影一闪而过，利用新技术即可秒级调出“可疑聚众”的精准片段。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第1张

在VR训练场，戴上VR眼镜练习投篮，手机App输入与库里三分相似的动作。训练时，眼镜分析第一视角视频流，一旦动作、发力、弧线都神似库里，立刻高亮标记这段精彩瞬间。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第2张

这背后，是深圳北理莫斯科大学与阿德莱德大学研究团队的新成果——混合模态在线视频定位（OVG-HQ）。

用通俗易懂的话说，这项技术能让系统一边直播/录像，一边根据多种“线索”，包括文字、参考图、示范视频片段等，在实时视频流中精准定位并裁剪出你关心的完整事件。

论文已发表于ICCV2025。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第3张

此前方法存在两大缺陷：

“离线”处理慢：主流技术必须等视频录完才能分析，无法满足安防“秒级响应”、直播“即时重现”的需求。

“词穷”难精准：仅靠文字描述难以精准定义视觉世界的差异，很多细节“只可意会不可言传”。

OVG-HQ如何破解这些难题？

技术解析

研究团队表示，要实现“精准定位+多模态理解”，需克服两大挑战：

挑战一：保留历史信息

在处理实时视频流时，模型需确保历史关键信息不丢失，否则早期线索会被遗忘，导致误判。

挑战二：查询模态不均

同一用户意图可能对应不同长度的视频或图片，强弱模态的差异会影响模型精度。构建统一模型处理所有模态组合异常困难。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第4张

为系统性研究上述问题，团队构建了QVHighlights数据集和首个支持混合模态在线定位的基准集QVHighlights-Unify，扩充四种查询元素。

核心组件：

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第5张

1、参数化记忆模块（PMB）

step 1：记忆当前输入，通过参数压缩信息，采用重构损失自监督学习。更新记忆参数，保留当前和历史信息。

step 2：记忆增强处理，利用更新后的记忆参数增强当前输入，输出增强后的表征供后续使用。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第6张

2、混合模态蒸馏

step 1: 为丰富模态组合训练专家模型。

step 2: 以专家输出为软标签，引导其他模态模型，得到统一处理多种模态组合的通用模型。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第7张

实验效果

为衡量实时能力，团队引入时间衰减因子β，设计oR@n和omAP两项在线指标。

实验结果显示，使用混合模态蒸馏后，模型在弱模态处理上显著提升：Image-R提升8.98%，Image-G提升9.35%。

实时视频精准定位：AI新突破实时视频 AI定位混合模态在线视频第8张

参数化记忆模块效果优于ATT和LSTM, 以生成视频查询为例，PMB（20.13%）>LSTM（17.41%）>ATT（11.85%）。

作者及单位

曾润浩（深圳北理莫斯科大学）、毛嘉其（深圳大学）、赖铭浩（深圳大学）、Minh Hieu Phan（阿德莱德大学）、董延杰（深圳北理莫斯科大学）、王伟（深圳北理莫斯科大学）、陈奇（阿德莱德大学）、胡希平（深圳北理莫斯科大学）

服务器教程云服务器性价比服务器

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441478.html

实时视频精准定位：AI新突破

技术解析

实验效果

作者及单位

Figure再获10亿美元融资，具身智能赛道领跑者

美团“食光机”破局早餐市场，新战略挑战与机遇并存

实时视频精准定位：AI新突破

技术解析

实验效果

作者及单位

Figure再获10亿美元融资，具身智能赛道领跑者

美团“食光机”破局早餐市场，新战略挑战与机遇并存

相关文章