扩散模型崛起：超越自回归架构的变革

当主流大语言模型还在采用自回归架构时，有人已经盯上了扩散架构。

在量子位MEET2026智能未来大会上，浙江大学百人计划研究员、博士生导师，蚂蚁集团资深技术专家赵俊博表示：

扩散架构在推理过程中可以直接修改和控制token，而不需要像自回归模型那样重新生成整段内容。

这意味着，相比自回归模型，扩散模型理论上有望实现更快的生成速度以及更低的计算成本。

基于此，他和团队将重点押注于扩散架构，并致力于探索扩散语言模型独有的Scaling Law。

作为这一探索的关键里程碑，他们近期发布并开源了LLaDA 2.0，率先将扩散语言模型做到千亿体量。

赵俊博坦言，该领域在训练与推理层面仍处早期，但发展势头迅猛，已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。

编者注：就在MEET2026智能未来大会结束后，赵俊博和团队也发布了全新的技术报告，揭示了千亿体量扩散语言模型背后的关键技术选择。报告标题：LLaDA2.0: Scaling Up Diffusion Language Models to 100B

报告链接（github）：https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

扩散模型崛起：超越自回归架构的变革扩散模型自回归模型 Scaling Law LLaDA 2.0 第1张

为了完整体现赵俊博的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会，近30位产业代表与会讨论。线下到场参会观众近1500人，线上直播观众350万+，获得了主流媒体的广泛关注与报道。

核心观点梳理

所有生成模型本质上都是在拟合数据分布。自回归模型提供了一种拟合方式，它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。
开源模型LLaDA采用扩散语言模型架构，暂不考虑MoE的情况下，在相同的计算量和性能目标下，LLaDA所需的参数规模可以比自回归模型更小。
扩散架构在推理过程中可以直接修改和控制token，而不需要像自回归模型那样重新生成整段内容。
在计算受限情况下，LLaDA采用“完形填空”式预测，相比自回归模型更为“data-hungry”，对数据需求更大、吸收数据更快。
LLaDA与自回归模型的Scaling Law存在差异，已验证LLaDA可以扩展到千亿规模，但继续往上会面临新的挑战。

...