单块H200,只需5秒即可生成一个5秒的视频。
最近,UCSD、UC伯克利和MBZUAI三大机构联手推出了FastWan系列视频生成模型。
论文地址:https://arxiv.org/pdf/2505.13389
其核心采用了全新的「稀疏蒸馏」训练方案,实现了高效生成,让视频去噪速度提高了70倍。
基于FastVideo架构,FastWan2.1-1.3B在单张H200上,去噪时间仅为1秒,5秒内生成了480p的5秒视频。
在一张RTX 4090上,则耗时21秒生成一个视频,去噪时间为2.8秒。
若仅计算DiT处理时间,升级版FastWan2.2-5B在单张H200上仅用16秒即可生成720P的5秒视频。
FastWan模型的权重、训练方案和数据集均开源。
如今,终于实现了AI实时视频的生成。
「稀疏蒸馏」究竟是什么,能让模型如此快速地生成视频?
一直以来,视频扩散模型是AI视频生成领域的主流,例如Sora采用了扩散模型+Transformer架构。
这些模型虽然强大,但长期受困于两大瓶颈:
1. 生成视频时需要海量的去噪步骤
2. 处理长序列时的注意力二次方计算成本,高分辨率视频必然面临此问题。
以Wan2.1-14B为例,模型需运行50次扩散步骤,生成5秒720P视频需处理超8万token,其中注意力操作甚至吞噬了85%以上的推理时间。
此时,「稀疏蒸馏」成为大杀器。
作为FastWan的核心创新,它首次在统一框架中实现稀疏注意力与去噪步骤蒸馏的联合训练。
其本质是回答一个根本问题:在应用极端扩散压缩时,如用3步替代50步,能否保留稀疏注意力的加速优势?
先前研究认为并不可行,而最新论文则通过「视频稀疏注意力」(VSA)改写了答案。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439078.html