当前位置：首页 > 科技资讯 > 正文

AI视频推理新突破：Open-o3 Video实现时空证据嵌入

主机测评网
科技资讯
2026-05-09
941

AI视频分析再升级！不仅能告诉你“是什么”、“发生了什么”，还能精确指出事件在“何时何地”发生。

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第1张

北大与字节联合团队推出首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型不仅准确回答问题，还能在推理过程中同步标出具体位置，实现有迹可循的视频推理。

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第2张

△

此外，该模型采用non-agent架构，避免复杂工具调用和多轮推理，一次回复即可完成“看—想—证—答”闭环。

在多个视频推理测试中，关键指标提升至24.2%，超越GPT-4o和Gemini-2-Flash等闭源模型，性能表现卓越。

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第3张

下面是更多详细内容。

研究背景

视频理解是多模态大模型中最复杂的任务之一，需识别画面中的物体与动作，并判断它们出现的时间和位置。

现有模型虽通过强化学习提升视频理解逻辑一致性，但仍是纯文本思维链，难以解释和验证。

OpenAI的o3模型提出“图像思考”理念，通过嵌入图像实现有依据的推理，但扩展到视频领域更具挑战。

模型训练过程

补足数据短板

数据是视频推理的核心瓶颈。现有数据集缺乏统一的时空标注与思维链数据。

团队构建了首个面向显式时空推理的统一语料体系——STGR（Spatio-Temporal Grounded Reasoning)，包括STGR-CoT-30k与STGR-RL-36k两部分。

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第4张

△

两个数据集均包含四类任务：时序定位、空间定位、时空定位数据和视频问答数据。

两阶段训练方法

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第5张

△

团队采用双阶段学习机制：冷启动预训练与基于GSPO的强化学习，让模型学会在视频中思考。

推理增强

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第6张

△

模型生成多个独立推理链，每个链包含时空证据。通过相关性评分加权投票，输出置信度最高的答案。

实验结果

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第7张

△

Open-o3 Video在多个视频推理与理解基准上均取得显著性能提升，超越大型闭源模型。

消融研究

为进一步验证不同训练环节对模型性能的影响，团队进行了系统性消融研究。实验结果表明，双阶段训练机制、自适应时间临近与时间门控策略对模型性能提升至关重要。

可视化结果

Open-o3 Video能在推理中提供时间与空间证据，支持其推理思路和最终答案。以下可视化实例展示了模型在处理物体外观识别、动作意图分析及天气推理上的突出性能。

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第8张

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第9张

AI视频推理新突破：Open-o3 Video实现时空证据嵌入 Open-o3 Video 视频推理时空证据多模态大模型第10张

高防服务器性价比服务器免费服务器

本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543944.html

AI视频推理新突破：Open-o3 Video实现时空证据嵌入

研究背景

模型训练过程

补足数据短板

两阶段训练方法

推理增强

实验结果

消融研究

可视化结果

意念控制电脑：Neuralink重塑人类科技边界

英伟达市值风云：5万亿巅峰下的危机与布局

AI视频推理新突破：Open-o3 Video实现时空证据嵌入

研究背景

模型训练过程

补足数据短板

两阶段训练方法

推理增强

实验结果

消融研究

可视化结果

意念控制电脑：Neuralink重塑人类科技边界

英伟达市值风云：5万亿巅峰下的危机与布局

相关文章