当前位置：首页 > 科技资讯 > 正文

500美元挑战SOTA：Pusa V1.0重塑视频生成

主机测评网
科技资讯
2026-04-15
260

你是否曾听闻OpenAI的Sora，一个耗资数百万美元、基于海量视频数据打造的AI视频模型？但你是否知道，有一支团队仅凭借3860段视频和不到500美元的成本，在关键任务上实现了与Sora比肩的性能？

例如，这个生动的图生视频展示了攀岩者在小行星上攀岩，人体运动与太空光影的仿真效果令人惊叹。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第1张

再如，视频扩展功能允许你给定起始帧或结束帧，让存钱罐小猪在大溪地的冲浪圣地上冲浪。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第2张

这些令人瞩目的成果源自香港城市大学等团队联合发布的最新图像-视频生成模型——Pusa V1.0（菩萨1.0）。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第3张

Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上，引入了向量时间步适应（Vectorized Timestep Adaptation, VTA）机制，仅使用3860对视频-文字数据和约500美元的成本进行微调，就在图像转视频（I2V）任务上超越了Wan-I2V-14B，实现了当前最佳表现（State-Of-The-Art, SOTA），并解锁了多项零样本任务能力。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第4张

500美元实现SOTA

正如前文所述，Pusa V1.0的文本到视频（T2V）模型是通过对Wan-T2V-14B进行微调而得到的，专门用于图像到视频的生成（I2V）。

与其他会破坏基础模型架构的微调模型不同，Pusa采用了VTA机制，实现了最小化和非破坏性的优化，将时间步长从标量扩展到矢量。这种机制完全保留了基础模型的预训练先验知识，并实现了更高效的时间学习。

全面的任务支持

凭借灵活的矢量化时间步适应策略，Pusa仅需10个推理步骤就能执行多种视频生成任务。

这些能力都是其“涌现属性”，能够在无需任何特定任务训练的情况下（零样本方式），扩展到图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。

例如，以9个起始帧（左视频）和12个结束帧（右视频）为条件，让模型生成中间的60帧画面。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第5张

或者，直接输入文字描述，让模型将一辆汽车从金色变为白色。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第6张

VTA如何提升视频生成的自然度？

由于视频本质上是按固定帧率（如电影的每秒24帧）连续播放的图片序列。在视频扩散模型（Video Diffusion Model, VDM）中，模型通常将整段视频分解为逐帧图像进行建模。

传统做法中，所有帧共享一个标量时间步长变量，模型对所有帧进行相同程度的降噪。然而，这意味着所有帧在降噪过程中步调一致，同时演化，导致后续画面无法获得前一帧的约束信息，使I2V效果显得过于僵硬。

此外，由于图像输入不同于抽象的文本输入，它作为刚性条件，对“视频生成起点”的限制非常严格。模型在保持原图约束的同时，必须自行推测图像之后的动态变化。

因此，为了生成连贯动态的视频，不同帧之间应以不同速度/时间状态进行演化，使后续帧的去噪过程能够尽可能受到前一帧的约束。这就是VTA机制的作用所在。

VTA为每一帧引入一个独立的时间编码，允许模型对每帧的去噪进度和时间位置进行精细控制，从而更真实地模拟帧的时序演化，使生成的视频在动态表现上更连贯、自然。

500美元挑战SOTA：Pusa V1.0重塑视频生成 Pusa V1.0 视频生成 SOTA VTA 第7张

具体而言，VTA通过帧感知的流匹配（Frame-Aware Flow Matching, FAFM）使每一帧能够独立演化，同时赋予模型对同步与异步时间结构的建模能力。最终，它通过向DiT注入自定义的时间嵌入，实现了高效、统一、非破坏性的多任务视频生成。

在训练层面，Pusa采用了帧感知的流匹配（FAFM）目标函数，模拟每一帧在时间轴上独立演化的理想速度。同时，为了始终保持起始图像作为条件约束，其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上，VTA则将这一目标通过向量时间步嵌入落实到DiT框架中，实现推理阶段的帧级动态控制。

在推理时，Pusa允许为每一帧指定不同的时间步长，从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合是Pusa生成自然、易于泛化的关键。

Pusa V1.0使用LORA＋DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明，Pusa V1.0超越了基于Wan-I2V-14B微调而来的Wan-I2V，实现了SOTA。

免费vps 服务器教程高防服务器

本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260437364.html

上一篇

2026年免费邮件服务器软件技术教程

下一篇

引言Windows Server 2026：最新特性安装与配置关键配置与优化常见问题与解决方案