当前位置:首页 > 科技资讯 > 正文

何恺明团队回归初心:扩散模型应直接预测图像

何恺明再次引领潮流,回归本质。

其最新论文颠覆了扩散模型的主流趋势——不再让模型预测噪声,而是直接生成清晰图像。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第1张

如果你熟悉何恺明的贡献,会发现这正是他创新的典型路径,不追求更复杂的架构,而是将问题简化回最初的形态,让模型专注于其最擅长的任务

事实上,扩散模型大热多年,架构愈发复杂,如预测噪声、提升预测速度、对齐潜在空间、堆叠标记器、添加变分自编码器(VAE)、感知损失等。

但人们似乎忘了,扩散模型本质上是去噪模型。

新论文重新聚焦这一核心,既然名为去噪模型,为何不直接进行去噪?

继ResNet、MAE之后,何恺明团队再次提出“大道至简”的结论:扩散模型应回归本源——直接预测图像

扩散模型的误用

当前主流扩散模型,尽管设计理念名为“去噪”,但在训练时,神经网络的预测目标往往并非纯净图像,而是噪声或混合了图像与噪声的速度场

实际上,预测噪声与预测纯净图像存在巨大差异。

根据流形假设,自然图像位于高维像素空间中的低维流形上,是规律可寻的纯净数据;而噪声则均匀分布在整个高维空间中,不具备这种低维结构。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第2张

简而言之,将高维像素空间想象为一个巨大的3D房间,纯净的自然图像挤在房间内的2D屏幕上。这就是流形假设——自然数据看似维度高,实则集中在一个低维的“曲面(流形)”上。

但噪声不同。它弥漫在整个3D房间里,不在屏幕上;速度场也一样,一半在屏上、一半在屏外,脱离了“流形”的规律。

这导致了一个核心矛盾:在处理高维数据时,如将图像切割为16x16甚至32x32的大Patch,要求神经网络拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,容易导致模型训练崩溃。

相反,如果让网络直接预测纯净图像,本质上就是学习如何将噪点投影回低维流形,对模型容量的要求低得多,也更符合神经网络“过滤噪声、保留信号”的初衷。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第3张

于是,这篇文章提出了极简架构JiT——纯粹处理图像的Transformer。

如其名所示,这是一个纯粹处理图像的Transformer,设计简洁。没有使用VAE压缩潜在空间,没有设计任何Tokenizer,无需CLIP或DINO等预训练特征对齐,也不依赖任何额外损失函数。

从像素出发,用纯粹Transformer进行去噪

JiT类似于标准ViT,将原始像素切割成大Patch(维度可高达3072维甚至更高)直接输入,唯一改动是将输出目标设定为直接预测纯净图像块。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第4张

实验结果显示,在低维空间中,预测噪声与预测原图表现相当;但进入高维空间后,传统预测噪声模型彻底崩溃,FID(越低越优)指数级上升,而直接预测原图的JiT依然稳健。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第5张

模型的扩展能力也极为出色。即使将patch尺寸扩大到64x64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第6张

团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会使模型失效,反而因契合流形学习过滤噪声的本质而进一步提升生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet 256x256和512x512上达到了1.82和1.78的SOTA级FID分数。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第7张

作者介绍

这篇论文的一作是何恺明的得意门生之一黎天鸿。他本科毕业于清华姚班,在MIT获得硕博学位后,目前在何恺明组内从事博士后研究。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第8张

他的主要研究方向是表征学习、生成模型及其协同作用。目标是构建能够理解和感知人类世界之外的智能视觉系统。

此前他作为一作与何恺明共同开发了自条件图像生成框架RCG。在团队最新的多项研究中也有他的身影。

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第9张

“可以说这位学者对湖南菜情有独钟,甚至把菜谱都展示在了自己的主页上。”

何恺明团队回归初心:扩散模型应直接预测图像 何恺明 扩散模型 直接预测 流形假设 第10张