AI视频分析再升级!不仅能告诉你“是什么”、“发生了什么”,还能精确指出事件在“何时何地”发生。
北大与字节联合团队推出首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型不仅准确回答问题,还能在推理过程中同步标出具体位置,实现有迹可循的视频推理。
△
此外,该模型采用non-agent架构,避免复杂工具调用和多轮推理,一次回复即可完成“看—想—证—答”闭环。
在多个视频推理测试中,关键指标提升至24.2%,超越GPT-4o和Gemini-2-Flash等闭源模型,性能表现卓越。
下面是更多详细内容。
视频理解是多模态大模型中最复杂的任务之一,需识别画面中的物体与动作,并判断它们出现的时间和位置。
现有模型虽通过强化学习提升视频理解逻辑一致性,但仍是纯文本思维链,难以解释和验证。
OpenAI的o3模型提出“图像思考”理念,通过嵌入图像实现有依据的推理,但扩展到视频领域更具挑战。
数据是视频推理的核心瓶颈。现有数据集缺乏统一的时空标注与思维链数据。
团队构建了首个面向显式时空推理的统一语料体系——STGR(Spatio-Temporal Grounded Reasoning),包括STGR-CoT-30k与STGR-RL-36k两部分。
△
两个数据集均包含四类任务:时序定位、空间定位、时空定位数据和视频问答数据。
△
团队采用双阶段学习机制:冷启动预训练与基于GSPO的强化学习,让模型学会在视频中思考。
△
模型生成多个独立推理链,每个链包含时空证据。通过相关性评分加权投票,输出置信度最高的答案。
△
Open-o3 Video在多个视频推理与理解基准上均取得显著性能提升,超越大型闭源模型。
为进一步验证不同训练环节对模型性能的影响,团队进行了系统性消融研究。实验结果表明,双阶段训练机制、自适应时间临近与时间门控策略对模型性能提升至关重要。
Open-o3 Video能在推理中提供时间与空间证据,支持其推理思路和最终答案。以下可视化实例展示了模型在处理物体外观识别、动作意图分析及天气推理上的突出性能。
本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543944.html