当前位置：首页 > 科技资讯 > 正文

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代

主机测评网
科技资讯
2026-01-04
554

思维链技术的下一步演进方向是什么？

DeepMind研究团队提出了帧链CoF（chain-of-frames）这一创新框架。

逐帧视频生成过程与语言模型中的链式思维相似。正如链式思维（CoT）赋能语言模型进行符号推理，帧链（CoF）使视频模型能够在时间与空间维度上进行逻辑推理。

上述观点源自DeepMind新近发布的Veo 3研究论文，通过类比语言模型中的CoT，首次正式提出了CoF概念。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第1张

同时，团队经过广泛测试发现——

以Veo 3为代表的视频模型正在发展通用视觉理解能力，能够零样本解决从“感知”到“思考”的完整视觉任务链，且进展迅猛，未来有望成为机器视觉领域的“通用基础模型”。

更简洁的总结是，“Veo 3迎来了视觉推理领域的GPT-3时刻”。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第2张

无论如何，要深入理解这一新概念及其意义，还需回归论文本身——

DeepMind首次提出CoF概念

据论文阐述，CoF的诞生源于DeepMind团队的一个探索：

视频生成模型能否像ChatGPT等大语言模型那样，无需专项训练即可胜任多样视觉任务，最终发展为“通用视觉基础模型”？

为何追求通用性？主要因为当前机器视觉领域仍处于“NLP的早期阶段”——

物体分割需依赖“Segment Anything”，物体检测需使用YOLO，不同任务常需重新调整模型甚至重新训练……

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第3张

既然现代视频生成模型与LLM共享相似基础——通过海量数据实现性能突破，这表明通用视觉并非遥不可及。

为验证这一假设，团队采用了简单直接的方法：仅提供提示，不做特定训练。通过Google API，向模型输入“一张初始图像（作为首帧）+ 一段文本指令”，让其生成8秒、720p的视频。

这与LLM“以提示替代专用训练”的逻辑一致，旨在检验模型的原生通用能力，完全依赖模型自身执行任务。

经过一系列实验，团队发现视频模型确实具备通用潜力。

具体来说，他们以Veo 3为测试对象，观察到其拥有四项递进能力：

第一，无需专门训练，Veo 3就能处理多种经典视觉任务，展现感知能力。

无论是基础任务（如提升模糊图像清晰度），还是复杂任务（如在杂乱场景中定位“蓝色球体”），它都能有效完成。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第4张

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第5张

第二，仅理解内容不足够，Veo 3还能“构建视觉世界规则”，体现建模能力。

这表现在它既理解物理规律（如知晓石块会下沉），又掌握抽象关系（如将适合装入背包的物品放置其中）。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第6张

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第7张

第三，基于“理解”与“规律”，Veo 3能主动改变视觉世界，具备操控能力。

例如修改图像（为小鸟添加围巾、将其置于雪景中），或进行3D变换与模拟（让骑士从正面朝向转为单膝跪地）。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第8张

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第9张

第四，整合前述能力，Veo 3可实现跨时空视觉推理，即CoF帧链。

面对迷宫求解难题：让红点从起点沿白色路径移动到绿点。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第10张

Veo 3能生成红点逐步规划路径的视频，避开黑色墙壁。在5×5迷宫测试中，Veo 3成功率达78%，而Veo 2仅为14%。

更多推理测试显示，尽管推理能力尚未完美（复杂旋转类比可能出现错误），但已显现“视觉智能的早期形态”。

总体而言，团队通过实验得出三个核心结论：

1、通过对62项定性任务和7项定量任务中生成的18384个视频进行分析，团队发现Veo 3能够解决许多未经专门训练或调整的任务。

2、Veo 3利用其感知、建模和操作视觉世界的能力，展现出类似“帧链（CoF）”的视觉推理雏形。

3、尽管针对特定任务优化的模型在零样本视频模型中表现更佳，但团队观察到从Veo 2到Veo 3的性能有了显著且一致的提升，这表明视频模型的能力正在快速发展。

“通才会取代专才”

此外，基于Veo 3当前表现及成本可能持续下降的预测，DeepMind大胆表示：

在视频模型领域，未来“通才”将取代“专才”。

具体来说，Veo 3作为通用视频模型，在特定任务上仍落后于专用SOTA模型，如边缘检测精度不及专门优化的算法。

但从趋势看，这种差距正随模型能力快速提升而缩小，类似于早期大语言模型（如GPT-3）虽整体不如任务微调模型，但通过架构、数据与训练方法的演进，最终成长为强大的通用基础模型。

例如，相比前代Veo 2，Veo 3在短期内实现全面升级。这证明模型的通用视觉与生成能力正处于快速上升期，可类比2020年前后LLM的飞跃阶段。

其次，通过多尝试（pass@10）策略，即同一任务多次生成并择优，Veo 3性能显著高于单次生成，且随尝试次数增加仍有提升空间，无明显上限。结合推理时缩放、RLHF指令微调等技术，Veo 3性能有望进一步提升。

此外，尽管目前视频生成成本高于专用任务模型，但根据Epoch AI数据——LLM推理成本每年下降9~900倍，且NLP早期通用模型（如GPT-3）也曾因成本受质疑，最终因“通用价值+成本下降”替代了专属模型。

因此，机器视觉很可能遵循类似路径，未来视频模型的成本问题将逐步缓解。

总而言之，DeepMind对通用视频模型充满信心。

而此次提出的新概念CoF，正如网友所言，有望与当初的CoT一样，为视频模型开拓新道路。

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代帧链CoF Veo 3 通用视频模型视觉推理第11张

论文：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

参考链接：

[1]https://x.com/AndrewCurran_/status/1971997723261075905

[2]https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/

阿里云服务器性价比服务器

本文由主机测评网于2026-01-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114831.html

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代

DeepMind首次提出CoF概念

“通才会取代专才”

汽车价格战全面熄火，行业竞争转向技术与服务新维度

VirtualBox复制粘贴终极指南：实现Ubuntu与Windows文本共享（小白也能懂）

DeepMind首创帧链CoF：视频模型开启通用视觉推理新时代

DeepMind首次提出CoF概念

“通才会取代专才”

汽车价格战全面熄火，行业竞争转向技术与服务新维度

VirtualBox复制粘贴终极指南：实现Ubuntu与Windows文本共享（小白也能懂）

相关文章