当前位置:首页 > 科技资讯 > 正文

FastWan模型:稀疏蒸馏加速视频生成

单块H200,只需5秒即可生成一个5秒的视频。

最近,UCSD、UC伯克利和MBZUAI三大机构联手推出了FastWan系列视频生成模型。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第1张

论文地址:https://arxiv.org/pdf/2505.13389

其核心采用了全新的「稀疏蒸馏」训练方案,实现了高效生成,让视频去噪速度提高了70倍。

基于FastVideo架构,FastWan2.1-1.3B在单张H200上,去噪时间仅为1秒,5秒内生成了480p的5秒视频。

在一张RTX 4090上,则耗时21秒生成一个视频,去噪时间为2.8秒。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第2张

若仅计算DiT处理时间,升级版FastWan2.2-5B在单张H200上仅用16秒即可生成720P的5秒视频。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第3张

FastWan模型的权重、训练方案和数据集均开源。

如今,终于实现了AI实时视频的生成。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第4张

稀疏蒸馏:AI视频进入极速模式

「稀疏蒸馏」究竟是什么,能让模型如此快速地生成视频?

一直以来,视频扩散模型是AI视频生成领域的主流,例如Sora采用了扩散模型+Transformer架构。

这些模型虽然强大,但长期受困于两大瓶颈:

1. 生成视频时需要海量的去噪步骤

2. 处理长序列时的注意力二次方计算成本,高分辨率视频必然面临此问题。

以Wan2.1-14B为例,模型需运行50次扩散步骤,生成5秒720P视频需处理超8万token,其中注意力操作甚至吞噬了85%以上的推理时间。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第5张

此时,「稀疏蒸馏」成为大杀器。

作为FastWan的核心创新,它首次在统一框架中实现稀疏注意力与去噪步骤蒸馏的联合训练。

其本质是回答一个根本问题:在应用极端扩散压缩时,如用3步替代50步,能否保留稀疏注意力的加速优势?

先前研究认为并不可行,而最新论文则通过「视频稀疏注意力」(VSA)改写了答案。

FastWan模型:稀疏蒸馏加速视频生成 FastWan 稀疏蒸馏 视频生成 AI 第6张