就在谢赛宁宣布VAE在图像生成领域逐步退出舞台的同时,清华大学与快手可灵团队迅速推出了无需VAE的潜在扩散模型SVG,这一创新立刻引发了行业广泛关注。
该技术实现了训练效率62倍、生成速度35倍的显著提升,标志着图像生成技术迈入了全新阶段。
VAE为何被接连放弃?核心原因在于其语义纠缠的根本缺陷——语义特征全部集中在同一潜在空间,调整单一数值就会“牵一发而动全身”,例如仅想修改猫的颜色,结果体型、表情等特征都随之改变。
与谢赛宁团队极致简化、复用预训练编码器并改造DiT架构、专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐的创新设计,成功实现了多任务通用能力。
下面我们来详细解析这一技术。
在传统的「VAE+扩散模型」图像生成范式中,VAE核心作用是将高分辨率图像压缩为低维潜在空间特征(可视为图像的简化编码),供后续扩散模型学习生成逻辑。
但这种方式会导致不同类别、不同语义的图像特征混杂交织,例如猫和狗的特征边界变得模糊不清。
这直接引发两个问题:
一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;
二是生成过程繁琐,往往需经过几十甚至上百步采样才能输出清晰图像。
此外,生成的特征空间用途单一,除图像生成外,几乎难以适配图像识别、语义分割等其他视觉任务。
面对VAE的挑战,谢赛宁团队的RAE技术选择了极致聚焦生成的路径。它直接复用DINOv2、MAE等成熟预训练编码器,不额外修改编码器结构,仅通过优化解码器还原图像细节,同时针对性改造扩散模型架构。
最终实现了生成效率与质量的跨越式提升,简而言之,就是将重心完全放在“生成图像又快又好”上。
而清华与快手可灵团队的SVG技术,则采取了兼顾生成与多任务通用的路线,核心差异在于特征空间的构建逻辑。
RAE是直接复用预训练特征,SVG则是主动构建语义与细节融合的特征空间。
具体而言,SVG选择以DINOv3预训练模型作为语义提取器。
原因是DINOv3经过大规模自监督学习,能精准捕捉图像高层语义信息,使猫、狗、汽车等不同类别特征边界清晰可辨,从根源解决了语义纠缠问题。
但团队也发现,DINOv3提取的特征偏重宏观语义,会丢失颜色、纹理等高频细节,因此专门设计了一个轻量级残差编码器进行细节补充,针对性学习这些被忽略的细节信息。
为了让「语义」和「细节补充」完美融合,SVG还加入了关键的分布对齐机制。
这一机制通过技术手段调整残差编码器输出的细节特征,使其在数值分布上与DINOv3的语义特征完全匹配,避免细节信息扰乱语义结构。
实验数据也印证了这一机制的重要性。去掉分布对齐后,SVG生成图像的FID值(衡量生成图像与真实图像相似度的核心指标,数值越低越优)从6.12升至9.03,生成质量显著下降。
实验结果显示,SVG在生成质量、效率、多任务通用性上全面超越传统VAE方案。
训练效率方面,在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,在无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(22.58);如果延长训练至1400个epoch,FID可低至1.92,接近当前顶级生成模型水平。
推理效率方面,消融实验中,5步采样时,SVG-XL的gFID为12.26,而SiT-XL(SD-VAE)为69.38、SiT-XL(VA-VAE)为74.46。这表明在较少采样步数下,SVG-XL就能达到较好生成质量。
不仅是图像生成,SVG的特征空间继承了DINOv3的能力,可直接用于图像分类、语义分割、深度估计等任务,且无需微调编码器。例如,在ImageNet-1K分类任务中Top-1精度达到81.8%,与原始DINOv3几乎一致;在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型。
团队由郑文钊担任项目负责人,他目前是加州大学伯克利分校博士后。此前,他在清华大学自动化系获得博士学位,研究聚焦于人工智能和深度学习领域。
同样来自清华自动化系的史明磊和王皓霖目前均在攻读博士学位,研究重点为多模态生成模型。
其中,史明磊透露自己还在创办一家专注于人工智能应用的公司。
△
Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan则来自快手可灵团队。
其中,Pengfei Wan是快手可灵视频生成模型负责人。
从谢赛宁团队的RAE到清华快手的SVG,尽管技术路线各有侧重,但两者的突破表明,预训练视觉模型的特征空间,或许已经具备了替代VAE的潜力。
论文地址:https://arxiv.org/abs/2510.15301
代码地址:https://github.com/shiml20/SVG
本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260117735.html