当前位置：首页 > 科技资讯 > 正文

扩散语言模型：从16B到100B的突破

令人惊讶的是，年初还是小众领域的「扩散语言模型（dLLM）」，如今已扩展至千亿参数规模。

近期，我们在HuggingFace页面发现了两个新模型：LLaDA2.0-mini和LLaDA2.0-flash。它们来自蚂蚁集团与多所大学组成的联合团队，均采用MoE架构。前者总参数量为16B，后者则高达100B——在「扩散语言模型」领域，这是前所未有的规模。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第1张

更可喜的是，模型规模扩大后，性能也显著提升：在涵盖多个维度的47个基准测试中，LLaDA2.0-flash平均得分73.18，与强AR模型Qwen3-30B-A3B-Instruct-2507（73.60）持平，在编码、智能体等复杂任务上优势显著。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第2张

长期以来，自回归生成范式在大模型领域占据主导地位，但其计算成本高、推理速度慢等弊端逐渐显现。dLLM的扩展让人们看到了另一条可行之路。

今年9月，LLaDA系列模型的研究者验证了MoE架构下从头训练dLLM的可行性，推出了7B的LLaDA-MoE。而仅三个月后，团队又在从成熟AR模型平滑迁移到扩散框架上取得突破，将模型规模扩展至100B。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第3张

LLaDA2.0的生成效果演示显示，模型会在多个位置并行生成，且已生成内容可修改。

这背后涉及哪些关键技术选择？哪些方法在dLLM中能奏效？技术报告中披露了许多细节。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第4张

将dLLM扩展到100B——公认的难题

研究发现，在数据不足的情况下，dLLM训练越久优势越明显。但如果数据更丰富或质量更高，反超会来得更晚；模型越大，反超会来得更早。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第5张

虽然「训练dLLM」变得有吸引力，但如何「做大做强」却是个难题。研究者们尝试了多种方法，包括从头开始训练、从已训练好的AR模型出发、后训练阶段努力等。

LLaDA2.0的提出，为这些问题提供了解决思路。

与之前的LLaDA-MoE等模型不同，LLaDA2.0没有选择从头训练dLLM，而是将已有的AR模型「平滑地」转化为扩散模型，并在此基础做大规模训练与对齐。

为了完成这种转化，LLaDA2.0提出了一套系统性解决方案。从训练范式的重构、预训练与后训练流程的强化协同，到训练与推理基础设施的适配与优化，给出了区别于以往方法的独特实现路径。

整体来讲，LLaDA2.0通过构建分段式、可扩展的训练体系，高效完成了从AR模型转化为dLLM的目标。

扩散语言模型：从16B到100B的突破扩散语言模型 MoE架构 LLaDA2.0 AR模型第6张

接下来逐一剖析这些关键环节。

整体来看，该系列模型不仅具备竞争力，而且在一些关键领域展现出接近甚至超越AR模型的趋势。

作为业内首个冲刺到1OOB参数的dLLM，LLaDA2.O系列模型无疑为整个领域注入了一针强心剂。

本文由主机测评网于2026-05-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260546182.html