当前位置：首页 > 科技资讯 > 正文

何恺明团队回归初心：扩散模型应直接预测图像

主机测评网
科技资讯
2026-05-12
831

何恺明再次引领潮流，回归本质。

其最新论文颠覆了扩散模型的主流趋势——不再让模型预测噪声，而是直接生成清晰图像。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第1张

如果你熟悉何恺明的贡献，会发现这正是他创新的典型路径，不追求更复杂的架构，而是将问题简化回最初的形态，让模型专注于其最擅长的任务。

事实上，扩散模型大热多年，架构愈发复杂，如预测噪声、提升预测速度、对齐潜在空间、堆叠标记器、添加变分自编码器（VAE）、感知损失等。

但人们似乎忘了，扩散模型本质上是去噪模型。

新论文重新聚焦这一核心，既然名为去噪模型，为何不直接进行去噪？

继ResNet、MAE之后，何恺明团队再次提出“大道至简”的结论：扩散模型应回归本源——直接预测图像。

扩散模型的误用

当前主流扩散模型，尽管设计理念名为“去噪”，但在训练时，神经网络的预测目标往往并非纯净图像，而是噪声或混合了图像与噪声的速度场。

实际上，预测噪声与预测纯净图像存在巨大差异。

根据流形假设，自然图像位于高维像素空间中的低维流形上，是规律可寻的纯净数据；而噪声则均匀分布在整个高维空间中，不具备这种低维结构。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第2张

简而言之，将高维像素空间想象为一个巨大的3D房间，纯净的自然图像挤在房间内的2D屏幕上。这就是流形假设——自然数据看似维度高，实则集中在一个低维的“曲面（流形）”上。

但噪声不同。它弥漫在整个3D房间里，不在屏幕上；速度场也一样，一半在屏上、一半在屏外，脱离了“流形”的规律。

这导致了一个核心矛盾：在处理高维数据时，如将图像切割为16x16甚至32x32的大Patch，要求神经网络拟合无规律的高维噪声，需要极大的模型容量来保留所有信息，容易导致模型训练崩溃。

相反，如果让网络直接预测纯净图像，本质上就是学习如何将噪点投影回低维流形，对模型容量的要求低得多，也更符合神经网络“过滤噪声、保留信号”的初衷。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第3张

于是，这篇文章提出了极简架构JiT——纯粹处理图像的Transformer。

如其名所示，这是一个纯粹处理图像的Transformer，设计简洁。没有使用VAE压缩潜在空间，没有设计任何Tokenizer，无需CLIP或DINO等预训练特征对齐，也不依赖任何额外损失函数。

从像素出发，用纯粹Transformer进行去噪。

JiT类似于标准ViT，将原始像素切割成大Patch（维度可高达3072维甚至更高）直接输入，唯一改动是将输出目标设定为直接预测纯净图像块。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第4张

实验结果显示，在低维空间中，预测噪声与预测原图表现相当；但进入高维空间后，传统预测噪声模型彻底崩溃，FID（越低越优）指数级上升，而直接预测原图的JiT依然稳健。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第5张

模型的扩展能力也极为出色。即使将patch尺寸扩大到64x64，让输入维度高达一万多维，只要坚持预测原图，无需增加网络宽度也能实现高质量生成。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第6张

团队甚至发现，在输入端人为引入瓶颈层进行降维，不仅不会使模型失效，反而因契合流形学习过滤噪声的本质而进一步提升生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下，在ImageNet 256x256和512x512上达到了1.82和1.78的SOTA级FID分数。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第7张

作者介绍

这篇论文的一作是何恺明的得意门生之一黎天鸿。他本科毕业于清华姚班，在MIT获得硕博学位后，目前在何恺明组内从事博士后研究。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第8张

他的主要研究方向是表征学习、生成模型及其协同作用。目标是构建能够理解和感知人类世界之外的智能视觉系统。

此前他作为一作与何恺明共同开发了自条件图像生成框架RCG。在团队最新的多项研究中也有他的身影。

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第9张

“可以说这位学者对湖南菜情有独钟，甚至把菜谱都展示在了自己的主页上。”

何恺明团队回归初心：扩散模型应直接预测图像何恺明扩散模型直接预测流形假设第10张

高防服务器阿里云服务器免费服务器

本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544759.html

何恺明团队回归初心：扩散模型应直接预测图像

扩散模型的误用

作者介绍

AI巨头对决：LeCun与Marcus的“神仙打架”

大模型创业风云：高管离职再创业，聚焦垂直赛道

何恺明团队回归初心：扩散模型应直接预测图像

扩散模型的误用

作者介绍

AI巨头对决：LeCun与Marcus的“神仙打架”

大模型创业风云：高管离职再创业，聚焦垂直赛道

相关文章