谢赛宁刚宣布VAE在图像生成领域退役,紧接着,清华与快手可灵团队带来了无VAE潜在扩散模型SVG。
该方法实现了训练效率上62倍、生成速度上35倍的提升。
VAE为何被接连抛弃?主要原因在于语义纠缠的缺陷——所有语义特征都放在同一个潜空间,调整一个数值会“牵一发而动全身”,例如只想改变猫的颜色,结果体型、表情都跟着变化。
与谢赛宁团队通过极简复用预训练编码器、改造DiT架构专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐实现了多任务通用。
接下来,我们详细探讨。
在“VAE+扩散模型”的传统图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征,供后续扩散模型学习生成逻辑。
然而,这会使得不同类别、不同语义的图像特征混乱交织,例如猫和狗的特征边界模糊不清。
这导致两个主要问题:
一是扩散模型训练效率低下,需要数百万步迭代才能勉强理清特征逻辑;
二是生成过程繁琐,往往需要几十甚至上百步采样才能输出清晰图像。
此外,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。
面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。
最终实现了生成效率与质量的显著提升,即将重心全放在“快速优质生成图像”上。
而清华&快手可灵团队的SVG技术则走了兼顾生成与多任务通用的路线,其核心差异在于对特征空间的构建逻辑。
RAE是直接复用预训练特征,而SVG则是主动构建融合语义与细节的特征空间。
具体来说,SVG选择DINOv3预训练模型作为语义提取器。
DINOv3经过大规模自监督学习,能够精准捕捉图像的高层语义信息,让不同类别的特征边界清晰可辨,从根本上解决了语义纠缠问题。
但团队也发现DINOv3提取的特征偏重于宏观语义,会丢失颜色、纹理等高频细节。因此,他们专门设计了一个轻量级残差编码器进行细节补充,针对性地学习这些被忽略的细节信息。
为了让“语义”和“细节补充”完美融合,SVG还加入了关键的分布对齐机制。
这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。
实验数据也证明了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标)从6.12升至9.03,生成质量大幅下滑。
实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。
在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch时,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。
不仅是生图
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543480.html