当前位置:首页 > 科技资讯 > 正文

扩散语言模型:从16B到100B的突破

令人惊讶的是,年初还是小众领域的「扩散语言模型(dLLM)」,如今已扩展至千亿参数规模。

近期,我们在HuggingFace页面发现了两个新模型:LLaDA2.0-mini和LLaDA2.0-flash。它们来自蚂蚁集团与多所大学组成的联合团队,均采用MoE架构。前者总参数量为16B,后者则高达100B——在「扩散语言模型」领域,这是前所未有的规模。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第1张

更可喜的是,模型规模扩大后,性能也显著提升:在涵盖多个维度的47个基准测试中,LLaDA2.0-flash平均得分73.18,与强AR模型Qwen3-30B-A3B-Instruct-2507(73.60)持平,在编码、智能体等复杂任务上优势显著。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第2张

长期以来,自回归生成范式在大模型领域占据主导地位,但其计算成本高、推理速度慢等弊端逐渐显现。dLLM的扩展让人们看到了另一条可行之路。

今年9月,LLaDA系列模型的研究者验证了MoE架构下从头训练dLLM的可行性,推出了7B的LLaDA-MoE。而仅三个月后,团队又在从成熟AR模型平滑迁移到扩散框架上取得突破,将模型规模扩展至100B。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第3张

LLaDA2.0的生成效果演示显示,模型会在多个位置并行生成,且已生成内容可修改。

这背后涉及哪些关键技术选择?哪些方法在dLLM中能奏效?技术报告中披露了许多细节。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第4张

  • 报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B
  • 报告链接:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
  • HuggingFace链接:https://hf.co/collections/inclusionAI/llada-20

将dLLM扩展到100B——公认的难题

研究发现,在数据不足的情况下,dLLM训练越久优势越明显。但如果数据更丰富或质量更高,反超会来得更晚;模型越大,反超会来得更早。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第5张

虽然「训练dLLM」变得有吸引力,但如何「做大做强」却是个难题。研究者们尝试了多种方法,包括从头开始训练、从已训练好的AR模型出发、后训练阶段努力等。

LLaDA2.0的提出,为这些问题提供了解决思路。

千亿级扩散模型的稳定训练,LLaDA2.0给出更优解

与之前的LLaDA-MoE等模型不同,LLaDA2.0没有选择从头训练dLLM,而是将已有的AR模型「平滑地」转化为扩散模型,并在此基础做大规模训练与对齐。

为了完成这种转化,LLaDA2.0提出了一套系统性解决方案。从训练范式的重构、预训练与后训练流程的强化协同,到训练与推理基础设施的适配与优化,给出了区别于以往方法的独特实现路径。

整体来讲,LLaDA2.0通过构建分段式、可扩展的训练体系,高效完成了从AR模型转化为dLLM的目标。

扩散语言模型:从16B到100B的突破 扩散语言模型 MoE架构 LLaDA2.0 AR模型 第6张

接下来逐一剖析这些关键环节。

性能比肩AR,dLLM的路走通了?

整体来看,该系列模型不仅具备竞争力,而且在一些关键领域展现出接近甚至超越AR模型的趋势。

1OOB之后,dLLM未来可期

作为业内首个冲刺到1OOB参数的dLLM,LLaDA2.O系列模型无疑为整个领域注入了一针强心剂。