当前位置:首页 > 科技资讯 > 正文

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代

思维链技术的下一步演进方向是什么?

DeepMind研究团队提出了帧链CoF(chain-of-frames)这一创新框架。

逐帧视频生成过程与语言模型中的链式思维相似。正如链式思维(CoT)赋能语言模型进行符号推理,帧链(CoF)使视频模型能够在时间与空间维度上进行逻辑推理。

上述观点源自DeepMind新近发布的Veo 3研究论文,通过类比语言模型中的CoT,首次正式提出了CoF概念。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第1张

同时,团队经过广泛测试发现——

以Veo 3为代表的视频模型正在发展通用视觉理解能力,能够零样本解决从“感知”到“思考”的完整视觉任务链,且进展迅猛,未来有望成为机器视觉领域的“通用基础模型”。

更简洁的总结是,“Veo 3迎来了视觉推理领域的GPT-3时刻”。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第2张

无论如何,要深入理解这一新概念及其意义,还需回归论文本身——

DeepMind首次提出CoF概念

据论文阐述,CoF的诞生源于DeepMind团队的一个探索:

视频生成模型能否像ChatGPT等大语言模型那样,无需专项训练即可胜任多样视觉任务,最终发展为“通用视觉基础模型”?

为何追求通用性?主要因为当前机器视觉领域仍处于“NLP的早期阶段”——

物体分割需依赖“Segment Anything”,物体检测需使用YOLO,不同任务常需重新调整模型甚至重新训练……

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第3张

既然现代视频生成模型与LLM共享相似基础——通过海量数据实现性能突破,这表明通用视觉并非遥不可及。

为验证这一假设,团队采用了简单直接的方法:仅提供提示,不做特定训练。通过Google API,向模型输入“一张初始图像(作为首帧)+ 一段文本指令”,让其生成8秒、720p的视频。

这与LLM“以提示替代专用训练”的逻辑一致,旨在检验模型的原生通用能力,完全依赖模型自身执行任务。

经过一系列实验,团队发现视频模型确实具备通用潜力

具体来说,他们以Veo 3为测试对象,观察到其拥有四项递进能力:

第一,无需专门训练,Veo 3就能处理多种经典视觉任务,展现感知能力。

无论是基础任务(如提升模糊图像清晰度),还是复杂任务(如在杂乱场景中定位“蓝色球体”),它都能有效完成。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第4张

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第5张

第二,仅理解内容不足够,Veo 3还能“构建视觉世界规则”,体现建模能力。

这表现在它既理解物理规律(如知晓石块会下沉),又掌握抽象关系(如将适合装入背包的物品放置其中)。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第6张

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第7张

第三,基于“理解”与“规律”,Veo 3能主动改变视觉世界,具备操控能力。

例如修改图像(为小鸟添加围巾、将其置于雪景中),或进行3D变换与模拟(让骑士从正面朝向转为单膝跪地)。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第8张

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第9张

第四,整合前述能力,Veo 3可实现跨时空视觉推理,即CoF帧链。

面对迷宫求解难题:让红点从起点沿白色路径移动到绿点。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第10张

Veo 3能生成红点逐步规划路径的视频,避开黑色墙壁。在5×5迷宫测试中,Veo 3成功率达78%,而Veo 2仅为14%。

更多推理测试显示,尽管推理能力尚未完美(复杂旋转类比可能出现错误),但已显现“视觉智能的早期形态”。

总体而言,团队通过实验得出三个核心结论:

1、通过对62项定性任务7项定量任务中生成的18384个视频进行分析,团队发现Veo 3能够解决许多未经专门训练或调整的任务。

2、Veo 3利用其感知、建模和操作视觉世界的能力,展现出类似“帧链(CoF)”的视觉推理雏形

3、尽管针对特定任务优化的模型在零样本视频模型中表现更佳,但团队观察到从Veo 2到Veo 3的性能有了显著且一致的提升,这表明视频模型的能力正在快速发展。

“通才会取代专才”

此外,基于Veo 3当前表现及成本可能持续下降的预测,DeepMind大胆表示:

在视频模型领域,未来“通才”将取代“专才”

具体来说,Veo 3作为通用视频模型,在特定任务上仍落后于专用SOTA模型,如边缘检测精度不及专门优化的算法。

但从趋势看,这种差距正随模型能力快速提升而缩小,类似于早期大语言模型(如GPT-3)虽整体不如任务微调模型,但通过架构、数据与训练方法的演进,最终成长为强大的通用基础模型。

例如,相比前代Veo 2,Veo 3在短期内实现全面升级。这证明模型的通用视觉与生成能力正处于快速上升期,可类比2020年前后LLM的飞跃阶段。

其次,通过多尝试(pass@10)策略,即同一任务多次生成并择优,Veo 3性能显著高于单次生成,且随尝试次数增加仍有提升空间,无明显上限。结合推理时缩放、RLHF指令微调等技术,Veo 3性能有望进一步提升。

此外,尽管目前视频生成成本高于专用任务模型,但根据Epoch AI数据——LLM推理成本每年下降9~900倍,且NLP早期通用模型(如GPT-3)也曾因成本受质疑,最终因“通用价值+成本下降”替代了专属模型

因此,机器视觉很可能遵循类似路径,未来视频模型的成本问题将逐步缓解。

总而言之,DeepMind对通用视频模型充满信心。

而此次提出的新概念CoF,正如网友所言,有望与当初的CoT一样,为视频模型开拓新道路。

DeepMind首创帧链CoF:视频模型开启通用视觉推理新时代 帧链CoF  Veo 3 通用视频模型 视觉推理 第11张

论文:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

参考链接:

[1]https://x.com/AndrewCurran_/status/1971997723261075905

[2]https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/