当前位置：首页 > 科技资讯 > 正文

DiT模型缺陷探讨：TREAD策略下的新发现与挑战

主机测评网
科技资讯
2026-04-23
260

「警惕！DiT或存在架构缺陷」

近日，一篇在X平台上的帖子引发了广泛讨论，有博主指出DiT（Diffusion Transformer）存在设计上的不足，并附上了一份论文截图作为佐证。

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第1张

图 1. 我们引入了TREAD，这是一种能够显著提升基于token的扩散模型骨干网络训练效率的训练策略。当应用于标准的DiT骨干网络时，我们在无引导FID指标上实现了14/37倍的训练速度提升，同时生成质量也显著提升。

图中横轴代表训练时间（以A100 GPU的小时数为单位，采用对数刻度，范围从100小时到10000小时），纵轴代表FID分数（数值越低表示生成图像质量越高）。

博主认为，此图的核心并非TREAD的速度优势，而是DiT的FID过早稳定，这可能暗示DiT存在「隐性架构缺陷」，导致它无法从数据中持续学习。

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第2张

博主提到的论文今年1月发表（3月更新v2），介绍了一种名为TREAD的新方法。该工作通过创新的「令牌路由」（token routing）机制，在不改变模型架构的情况下，极大提升了训练效率和生成图像的质量，从而在速度和性能上都显著超越了DiT模型。

具体来讲，TREAD在训练过程中采用「部分令牌集」vs「完整令牌集」，通过预定义路由保存信息并重新引入到更深层，跳过部分计算以降低成本，且此做法仅用于训练阶段，推理时仍采用标准设置。这与MaskDiT等方法类似，但更高效。

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第3张

论文标题：TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training

论文地址：https://arxiv.org/abs/2501.04765

代码：https://github.com/CompVis/tread

在后续回复中，博主逐步展开了对DiT的批判，并解释TREAD如何揭示这些问题。

博主指出，该论文揭示了DiT模型的设计缺陷。具体来说，研究发现，在训练过程中，如果将模型中的部分计算单元替换为「恒等函数」（即让这些单元不执行任何计算，仅「直通」数据，相当于被临时禁用），模型的最终评估分数反而会提高。

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第4张

接着，博主指出了DiT的两个「可疑」设计：

整个架构都使用后层归一化（Post-LayerNorm）

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第5张

博主认为DiT使用了一种已知不太稳定的技术（后层归一化）来处理一个数值范围变化极其剧烈的任务（扩散过程）。

adaLN-zero

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第6张

博主认为，尽管该模型自称是「Transformer」架构，但在处理最关键的「指导信息」（即条件数据）时，并未使用强大的Transformer，而是用了一个非常简单的MLP网络（多层感知机）。

更具体地，adaLN-zero通过完全覆盖注意力单元的输入并注入任意偏置来覆盖输出，这限制了模型的表达能力，相当于「讨厌注意力操作」（hate the attention operation），从而削弱了DiT的整体潜力。

DiT模型缺陷探讨：TREAD策略下的新发现与挑战 DiT TREAD 架构缺陷训练效率第7张

博主还提到了与早期论文相关的LayerNorm研究，指出LayerNorm的偏置和增益参数可能对梯度调整影响更大，而非真正改善模型性能。他认为adaLN-zero正是利用这一点，名为「梯度调节」，实则像是在「给小模型偷偷注入过拟合的偏置」。

论文标题：Understanding and Improving Layer Normalization

论文地址：https://arxiv.org/abs/1911.07...

看了这篇帖子后，DiT的作者——纽约大学计算机科学助理教授谢赛宁有些坐不住了。

在2022年，谢赛宁发表了DiT的论文，这是扩散模式首次和Transformer相结合。

论文标题：Scalable Diffusion Models with Transformers

论文链接：免费服务器云服务器服务器教程

本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439831.html

DiT模型缺陷探讨：TREAD策略下的新发现与挑战

小鹏汽车二季度财报亮点：毛利率创新高，销量指引略低于预期

腾讯混元3D模型：高效普及，开启全民3D创作时代

DiT模型缺陷探讨：TREAD策略下的新发现与挑战

小鹏汽车二季度财报亮点：毛利率创新高，销量指引略低于预期

腾讯混元3D模型：高效普及，开启全民3D创作时代

相关文章