当前位置:首页 > 科技资讯 > 正文

视频生成模型的推理能力:从“生成”到“推理”的跨越

近年来,以Veo、Sora为代表的视频生成模型展现出了令人惊叹的合成能力,能够生成逼真且连贯的动态画面。这类模型在视觉内容生成上的进步,暗示其内部可能隐含了对世界结构与规律的理解。值得注意的是,Google的最新研究指出,Veo 3等模型正逐步展现出超越单纯合成的“涌现特性”,包括感知、建模和推理等更高层次的能力。

这引发了一个与语言模型“思维链”(CoT)相对应的新概念——Chain-of-Frame(CoF)。其核心思想是:模型通过逐帧生成视频,以连贯的视觉推演方式逐步解决问题。然而,一个关键问题仍未解决:这些模型是否真正具备零样本推理(Zero-Shot Reasoning)的能力,还是仅仅在模仿训练数据中的表面模式?

为探究这一问题,来自香港中文大学、北京大学、东北大学的研究团队进行了系统性研究,对Veo 3等模型的零样本推理潜力进行了深入评估,并提出了涵盖空间、几何、物理、时间等12个推理维度的综合测试基准——MME-CoF。

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第1张

论文题目:Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

论文链接:https://arxiv.org/pdf/2510.26802v1

项目主页:https://video-cof.github.io/

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第2张

理解Chain-of-Frame(CoF)推理

“帧链推理”可以看作是语言中“思维链”(CoT)的视觉类比:

CoT通过逐步生成文字展现推理路径。

而CoF则通过逐帧生成画面,使场景在视觉上不断演化,从而体现推演过程。

深入分析:12项推理挑战

为全面揭示视频模型的推理潜力,研究团队设计了12个维度的测试任务,对Veo 3进行了系统的实证分析。以下选取其中三个典型维度进行说明(其余部分可参阅原论文)。

1. 真实世界空间推理(Real-World Spatial Reasoning)

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第3张任务:评估模型在多视角自然场景中保持空间一致性的能力,包括视角变化、方位对齐与参考系稳定性。

发现:能较好处理简单场景下的空间布局与视角切换,局部场景保持合理的空间关系与方向一致。

局限:在复杂视角变化或深度理解任务中表现不稳,常出现空间错位、视角漂移或方向混乱,难以维持全局坐标一致性。

2. 3D几何推理(3D Geometry Reasoning)

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第4张任务:评估模型在三维几何变换任务中的结构理解与连续性表现,如物体折叠、旋转与立体重构。

发现:在单步、简单几何变换中可生成结构完整且视觉连贯的结果,具备初步的三维形态理解能力。

局限:多步或组合性变换中常出现结构错位、自交或崩塌,无法维持几何一致与物理合理性,整体三维推理仍脆弱。

3. 2D几何推理(2D Geometry Reasoning)

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第5张任务:评估模型在平面几何构造与图形操作任务中的准确性与约束保持能力,如点连线、形状移动和构图顺序理解。

发现:在简单几何连接任务中可识别并正确绘制基本关系,呈现初步几何构造能力。

局限:易优先生成视觉上美观的图形而非严格几何符合,常出现连线顺序错误、形状变形或持续绘制超出任务范围,缺乏稳定的几何约束意识。

其他六个推理维度概览

除上述三项外,其余九个维度同样揭示了Veo 3的限制:

视觉细节推理(Visual Detail Reasoning):对被遮挡或微小目标的识别不稳,生成内容易偏离任务要求。

视觉追踪推理(Visual Trace Reasoning):长时序依赖和规则驱动的动作链容易中断,因果一致性不足。

物理推理(Physics-Based Reasoning):未能准确遵循能量、力学等物理规律,仅表现为视觉层面的“模拟”。

旋转推理(Rotation Reasoning):小角度旋转可近似实现,大角度下结构崩坏。

图表推理(Table & Chart Reasoning):可模仿局部视觉模式,但缺乏对数值关系的真实理解。

物体计数(Object Counting Reasoning):在静态场景下表现良好,但动态环境中常出现漏数或重复。

GUI推理(GUI Reasoning):能生成点击或拖动动作,但对操作目的与逻辑缺乏认知。

具身推理(Embodied Reasoning):能识别物体位置与动作,但不遵守环境规则,偶有“作弊式”生成。

医学推理(Medical Reasoning):在放大或观察局部细节时具备表面能力,但无法保持影像逻辑一致,易出现结构性错误。

MME-CoF:首个视频推理基准

研究团队基于上述实证研究整理了MME-CoF基准,以标准化方式评估视频模型的推理潜能。其主要特征包括:

  • 首个系统量化视频模型推理能力的框架;
  • 覆盖12个维度、59个精心设计任务;
  • 提示式设计创新:将抽象推理任务(如物理、几何、计数)转化为可视化视频生成挑战,迫使模型通过“帧链推理”展现过程性思考。

视频生成模型的推理能力:从“生成”到“推理”的跨越 视频生成模型 零样本推理 Chain-of-Frame MME-CoF 第6张