当前位置:首页 > 科技资讯 > 正文

AI视频推理新突破:Open-o3 Video实现时空证据嵌入

AI视频分析再升级!不仅能告诉你“是什么”、“发生了什么”,还能精确指出事件在“何时何地”发生。

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第1张

北大与字节联合团队推出首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型不仅准确回答问题,还能在推理过程中同步标出具体位置,实现有迹可循的视频推理。

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第2张

此外,该模型采用non-agent架构,避免复杂工具调用和多轮推理,一次回复即可完成“看—想—证—答”闭环。

在多个视频推理测试中,关键指标提升至24.2%,超越GPT-4oGemini-2-Flash等闭源模型,性能表现卓越。

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第3张

下面是更多详细内容。

研究背景

视频理解是多模态大模型中最复杂的任务之一,需识别画面中的物体与动作,并判断它们出现的时间和位置。

现有模型虽通过强化学习提升视频理解逻辑一致性,但仍是纯文本思维链,难以解释和验证。

OpenAI的o3模型提出“图像思考”理念,通过嵌入图像实现有依据的推理,但扩展到视频领域更具挑战。

模型训练过程

补足数据短板

数据是视频推理的核心瓶颈。现有数据集缺乏统一的时空标注与思维链数据。

团队构建了首个面向显式时空推理的统一语料体系——STGR(Spatio-Temporal Grounded Reasoning),包括STGR-CoT-30kSTGR-RL-36k两部分。

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第4张

两个数据集均包含四类任务:时序定位、空间定位、时空定位数据和视频问答数据。

两阶段训练方法

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第5张

团队采用双阶段学习机制:冷启动预训练与基于GSPO的强化学习,让模型学会在视频中思考。

推理增强

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第6张

模型生成多个独立推理链,每个链包含时空证据。通过相关性评分加权投票,输出置信度最高的答案。

实验结果

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第7张

Open-o3 Video在多个视频推理与理解基准上均取得显著性能提升,超越大型闭源模型。

消融研究

为进一步验证不同训练环节对模型性能的影响,团队进行了系统性消融研究。实验结果表明,双阶段训练机制、自适应时间临近与时间门控策略对模型性能提升至关重要。

可视化结果

Open-o3 Video能在推理中提供时间与空间证据,支持其推理思路和最终答案。以下可视化实例展示了模型在处理物体外观识别、动作意图分析及天气推理上的突出性能。

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第8张

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第9张

AI视频推理新突破:Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理 时空证据 多模态大模型 第10张