当前位置:首页 > 科技资讯 > 正文

500美元挑战SOTA:Pusa V1.0重塑视频生成

你是否曾听闻OpenAI的Sora,一个耗资数百万美元、基于海量视频数据打造的AI视频模型?但你是否知道,有一支团队仅凭借3860段视频和不到500美元的成本,在关键任务上实现了与Sora比肩的性能?

例如,这个生动的图生视频展示了攀岩者在小行星上攀岩,人体运动与太空光影的仿真效果令人惊叹。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第1张

再如,视频扩展功能允许你给定起始帧或结束帧,让存钱罐小猪在大溪地的冲浪圣地上冲浪。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第2张

这些令人瞩目的成果源自香港城市大学等团队联合发布的最新图像-视频生成模型——Pusa V1.0(菩萨1.0)。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第3张

Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上,引入了向量时间步适应(Vectorized Timestep Adaptation, VTA)机制,仅使用3860对视频-文字数据和约500美元的成本进行微调,就在图像转视频(I2V)任务上超越了Wan-I2V-14B,实现了当前最佳表现(State-Of-The-Art, SOTA),并解锁了多项零样本任务能力。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第4张

500美元实现SOTA

正如前文所述,Pusa V1.0的文本到视频(T2V)模型是通过对Wan-T2V-14B进行微调而得到的,专门用于图像到视频的生成(I2V)。

与其他会破坏基础模型架构的微调模型不同,Pusa采用了VTA机制,实现了最小化和非破坏性的优化,将时间步长从标量扩展到矢量。这种机制完全保留了基础模型的预训练先验知识,并实现了更高效的时间学习。

全面的任务支持

凭借灵活的矢量化时间步适应策略,Pusa仅需10个推理步骤就能执行多种视频生成任务。

这些能力都是其“涌现属性”,能够在无需任何特定任务训练的情况下(零样本方式),扩展到图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。

例如,以9个起始帧(左视频)和12个结束帧(右视频)为条件,让模型生成中间的60帧画面。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第5张

或者,直接输入文字描述,让模型将一辆汽车从金色变为白色。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第6张

VTA如何提升视频生成的自然度?

由于视频本质上是按固定帧率(如电影的每秒24帧)连续播放的图片序列。在视频扩散模型(Video Diffusion Model, VDM)中,模型通常将整段视频分解为逐帧图像进行建模。

传统做法中,所有帧共享一个标量时间步长变量,模型对所有帧进行相同程度的降噪。然而,这意味着所有帧在降噪过程中步调一致,同时演化,导致后续画面无法获得前一帧的约束信息,使I2V效果显得过于僵硬。

此外,由于图像输入不同于抽象的文本输入,它作为刚性条件,对“视频生成起点”的限制非常严格。模型在保持原图约束的同时,必须自行推测图像之后的动态变化。

因此,为了生成连贯动态的视频,不同帧之间应以不同速度/时间状态进行演化,使后续帧的去噪过程能够尽可能受到前一帧的约束。这就是VTA机制的作用所在。

VTA为每一帧引入一个独立的时间编码,允许模型对每帧的去噪进度和时间位置进行精细控制,从而更真实地模拟帧的时序演化,使生成的视频在动态表现上更连贯、自然。

500美元挑战SOTA:Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第7张

具体而言,VTA通过帧感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一帧能够独立演化,同时赋予模型对同步与异步时间结构的建模能力。最终,它通过向DiT注入自定义的时间嵌入,实现了高效、统一、非破坏性的多任务视频生成。

在训练层面,Pusa采用了帧感知的流匹配(FAFM)目标函数,模拟每一帧在时间轴上独立演化的理想速度。同时,为了始终保持起始图像作为条件约束,其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上,VTA则将这一目标通过向量时间步嵌入落实到DiT框架中,实现推理阶段的帧级动态控制。

在推理时,Pusa允许为每一帧指定不同的时间步长,从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合是Pusa生成自然、易于泛化的关键。

Pusa V1.0使用LORA+DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明,Pusa V1.0超越了基于Wan-I2V-14B微调而来的Wan-I2V,实现了SOTA。

免费vps服务器教程高防服务器