令人惊讶的是,年初还属于小众探索方向的扩散语言模型(dLLM),如今已经成功扩展到了千亿参数的巨大规模。
不久前,在HuggingFace平台上出现了两个全新模型:LLaDA2.0-mini和LLaDA2.0-flash。它们由蚂蚁集团与中国人民大学、浙江大学、西湖大学组成的联合研究团队共同发布,并且均采用了先进的混合专家(MoE)架构。其中,LLaDA2.0-mini的总参数量为160亿,而LLaDA2.0-flash的总参数量更是达到了惊人的1000亿——这在整个扩散语言模型的发展历程中,是前所未有的规模突破。
更令人鼓舞的是,模型规模的扩大确实带来了性能的显著提升:在涵盖知识、推理、编程、数学、智能体与对齐等六大维度的47项权威基准测试中,LLaDA2.0-flash的平均得分高达73.18,与强大的自回归(AR)模型Qwen3-30B-A3B-Instruct-2507(得分73.60)几乎持平,并且在代码生成(如HumanEval、MBPP)、智能体任务(BFCL)等复杂场景中展现出明显优势。
长期以来,自回归生成范式在大语言模型领域占据着绝对主导地位。这种从前到后逐个生成token的方法虽然流行,但其固有缺陷也逐渐暴露:生成长文本时计算成本高昂、推理速度较慢,且难以有效捕捉token之间的双向依赖关系。一旦前期生成出现错误,不仅无法直接修正,还会导致误差不断累积,影响后续输出质量。
dLLM的成功扩展向业界证明了另一条技术路线的巨大潜力。值得注意的是,这类模型的快速演进并非沿着单一方向简单放大规模,而是源于研究者们“多线并进”的积极探索。
就在今年9月,LLaDA系列模型的研究者刚刚验证了基于MoE架构从头训练dLLM的可行性,推出了70亿参数的LLaDA-MoE。而仅仅三个月后,该团队又在另一条关键技术路径——从成熟的自回归模型平滑迁移至扩散框架——上取得重大突破,一举将模型规模扩展至1000亿参数。
图为LLaDA2.0生成效果演示。可以观察到,模型能够在多个位置并行生成文本,并且已生成的内容支持动态修改。
这背后涉及哪些关键的技术抉择?哪些方法在dLLM中真正行之有效?在近期发布的技术报告中,LLaDA2.0幕后团队披露了大量核心细节。
近期有研究表明,在训练数据量相对有限的情况下,dLLM 的性能会随着训练持续提升,最终超越传统的自回归模型。训练时间越长,其优势越明显。如果数据更丰富或质量更高,这种“反超”会稍晚出现;而如果模型规模更大,反超则会来得更早。
这些证据的出现使得“训练dLLM”的吸引力与日俱增。然而,如何将dLLM“做大做强”却是一个公认的难题。在过去一两年间,研究者们已尝试了多种方法。
首先是从头开始训练。此前的LLaDA、LLaDA-MoE均是该方向的成功尝试,证明了从头训练的dLLM性能可接近同尺寸AR模型,且在引入MoE后,dLLM能更高效、更强大。但受限于可用数据量、基础设施成熟度、计算成本与训练周期等因素,从头训练的dLLM通常规模较小(≤8B),整体性能仍落后于最先进的AR模型。
其次是从已训练好的AR模型出发,让dLLM继承其知识与能力,从而降低训练成本并缩小性能差距。该方向已涌现多个代表性工作,如DiffusionLLaMA、Dream-7B、RND1、Block DLM等。它们通过掩码退火、块扩散等方法,将AR模型预训练好的语言能力“迁移”到扩散结构中。但此类尝试也未突破300亿参数规模。加之块扩散本身的训练效率不高,很难将该方法直接扩展到海量语料的大规模模型训练中。
最后是后训练阶段的探索。在微调方面,已有工作证明dLLM经过监督微调(SFT)后可在代码生成、复杂规划等任务上媲美顶级AR模型。在强化学习方面,由于dLLM的对数似然难以计算,研究者不得不设计新算法,甚至训练出了首个具备长链思维推理能力的dLLM。在推理加速方面,通过动态剪枝或混合AR-扩散范式,dLLM的推理速度已首次超越同规模AR模型。但总体而言,后训练研究仍处于早期阶段,这些技术如何协同、如何扩展到千亿参数规模,仍是开放性问题。
LLaDA2.0模型的出现,为上述问题提供了全新的解决思路。
与之前的LLaDA-MoE等模型不同,LLaDA2.0并未选择从头训练dLLM,而是将已有的AR模型“平滑地”转化为扩散模型,并在此基础上进行大规模训练与对齐。
为实现这种转化,LLaDA2.0提出了一套系统性的解决方案。从训练范式的重构、预训练与后训练流程的强化协同,到训练与推理基础设施的适配与优化,提供了一条区别于以往方法的独特实现路径。
整体而言,LLaDA2.0通过构建一个分段式、可扩展的训练体系,高效完成了从AR模型到dLLM的转化目标。
如下图2所示,首先通过持续预训练(CPT)将一个AR基座模型重建为掩码扩散语言模型(MDLM),使其学习双向去噪能力,从而在保持原AR模型表征几何结构的前提下,平滑过渡到扩散范式。
接下来,在已训练的MDLM基础上引入块扩散预训练(Block Diffusion Pre-training)。此时,模型不再针对单个token,而是训练其对连续文本片段(即块)的去噪能力。从token到块的转变,显著增强了生成长文本的一致性,并带来了更高的计算效率。
最后,在兼具token与块两级生成能力之后,模型通过后训练(包括SFT与DPO)具备了更强的人类意图理解与指令遵从特性,更能满足下游任务需求。经过这一阶段,扩散预训练获得的强大生成能力得以高效转化为实际任务中的卓越性能。
图为LLaDA2.0训练流程图。
接下来,我们将逐一剖析这些关键环节。
持续预训练
由于AR模型的因果建模方式与dLLM的双向去噪机制存在本质差异,前者到后者的转化并非简单替换训练目标即可完成。为此,LLaDA2.0采取了Warmup–Stable–Decay(WSD)的持续预训练策略。
在Warmup(热身)阶段,团队将Ling-mini-2.0(16B)等AR基座模型视为块大小=1的块扩散语言模型(BDLM)起点,并按照“1→4→32→64→4096”逐步增加块大小。每次调整块大小均在中等规模数据上进行训练,以确保模型平稳过渡。当块大小达到最大4096时,BDLM转化为标准的掩码扩散语言模型(MDLM),完成了从因果生成向全局双向去噪的结构性迁移。
接下来是Stable(稳定)阶段。在块大小固定为4096且模型转化为全局双向去噪范式之后,在大规模语料上进行MDLM训练,以掌握扩散式生成与双向上下文建模能力。
完成MDLM训练后,进入Decay(衰减)阶段。团队逐步将块大小从4096减小到更适合推理的尺寸(如32),从而转换回高效的BDLM。如此一来,模型在MDLM阶段学到的全局上下文知识被蒸馏回更紧凑的块级结构中,实现了扩散式双向语义能力与块级生成推理效率的兼得。
此外,由于训练过程中会将多个文档拼接成长序列,可能在语义无关的文本之间引入长程依赖干扰。为此,团队引入了文档级注意力掩码(Document-level Attention Mask),可避免跨文档干扰,防止语义污染,并确保双向建模的稳定性。
为了进一步增强BDLM的泛化性和稳健性,团队又采用了Top-k检查点融合策略。在预训练结束后,根据困惑度等验证指标选取表现最优的k个模型检查点,并对它们的权重、偏置等参数进行算数平均,从而获得更稳健的BDLM初始化状态。
通过这一整套流程,LLaDA2.0为行业内在千亿规模上稳定训练扩散模型提供了可借鉴的完整解决方案。
后训练
在完成从AR到dLLM范式的持续预训练之后,LLaDA2.0还进行了系统化的后训练,主要包括以下三个核心环节。
一是SFT(监督微调):在预训练阶段完成后,通过SFT对齐用户指令。过程中引入了多项关键改进:对序列长度进行块对齐,确保与块级注意力结构兼容;利用“Mask ratio bandwidth”避免近乎无噪声和过度噪声样本造成的训练无效与梯度不稳定;利用“Complementary Masking”,保证同一序列的所有token在一个训练batch中至少被学习一次,大幅提升样本利用率与收敛速度;通过覆盖推理、通用与工业三类数据,确保模型能力分布均衡全面。
二是CAP(置信度感知并行训练):通过在训练中添加额外的置信度损失,CAP为正确预测的token引入了熵最小化目标,从而提升模型预测置信度,并实现更快的并行解码,在生成质量与推理速度之间取得了良好平衡。
三是DPO(直接偏好对齐):使模型更好地对齐人类偏好。团队构建了涵盖通用、数学、指令遵循等多个领域的偏好数据集,共包含150万对偏好样本。此外,将重构损失的证据下界(Evidence Lower Bound, ELBO)作为对数似然的替代,构建出适配扩散模型的DPO框架。
通过三项后训练技术的协同,LLaDA2.0在能力塑造、推理效率提升与人类偏好对齐之间形成了完善的优化体系,使其从通用的扩散式生成模型进一步迈向高性能实用型大模型。
训练与推理基础设施
为了进一步解决训练稳定性、大规模可扩展性和推理效率问题,LLaDA2.0分别在预训练、后训练与推理阶段进行了针对性的工程优化与机制设计。
在预训练阶段,团队以Megatron-LM作为训练后端,并结合数据并行(DP)、流水线并行(PP)、张量并行(TP)、上下文并行(CP)与专家并行(EP)的多维并行策略,使得千亿级模型在长序列与复杂注意力结构下仍能保持高吞吐量与强扩展性。
此外,团队通过引入基于cuDNN的注意力实现,为任意块扩散训练带来显著加速。在训练LLaDA2.0-mini时,相较于TransformerEngine中未融合的注意力实现,这一做法实现了1.3倍以上的端到端加速,以及90%以上的注意力层显存节省。团队还通过在“masked token embedding”输出中添加独立高斯噪声,解决了扩散训练初期的数值不稳定问题。
图为预训练阶段采用的多并行策略示意图。
在后训练阶段,团队通过专为dLLM提供高效训练范式的开源库dFactory实现了复杂的并行化策略。同时采用“数据打包”策略,将多个短序列拼接在一起,提升数据吞吐量与硬件利用率。
在推理阶段,团队对原为dLLM设计的推理框架dInfer进行改造,使其能够支持块扩散推理,并在能力实现上更接近AR模型。关键优化包括有效复用KV缓存,大幅降低prefill阶段开销;另外,在SGLang中加入块扩散支持,使得dLLM也能享受AR模型成熟的推理优化生态。
下图3的结果显示,在HumanEval、MBPP、GSM8K、CRUXEval等基准测试中,LLaDA2.0-flash-CAP达到了535 TPS(Token/s),相较于基线AR模型(Ling-flash-2.0与Qwen3-30B-A3B-Inst-2507)实现了最高2.1倍的推理加速。
通过大规模训练、稳定性保障、分布式并行、高效推理框架适配等多个工程环节的全面优化,LLaDA2.0有望成为扩散模型迈向真正工业级可用的关键转折点。
经过上述技术锤炼,LLaDA2.0的实际表现究竟如何?
整体来看,该系列模型不仅具备强大竞争力,而且在一些关键领域展现出接近甚至超越AR模型的趋势。
先看LLaDA2.0-mini。它的综合得分为64.34,接近同级别AR模型Ling-mini-2.0的65.77,证明了扩散路线的基本可行性。值得注意的是,它在一些复杂任务上已经超越了直接对标的Qwen3-8B,例如在SQuAD 2.0阅读理解(86.50)、代码生成HumanEval(86.59)等任务中表现更优。
再看规模更大的LLaDA2.0-flash。它的综合得分为73.18,与Qwen3-30B-A3B-Instruct-2507(73.60)基本持平。而在编码任务上,它开始展现出更明显的优势:HumanEval得分94.51、MBPP得分88.29、MultiPL-E得分74.87,均高于AR对手。这一优势趋势也延伸到了智能体能力(BFCL v3: 75.43)上。
一个值得关注的现象是:随着模型规模增大,扩散架构在结构化生成和工具调用上的优势似乎愈发明显。
LLaDA2.0的性能表现表明,扩散语言模型是一条具备高度可扩展性和强大竞争力的技术路线。它在通用基准上快速缩小了与AR模型的差距,同时在代码生成、工具使用等复杂任务上展现出超越的潜力。
作为业内首个冲刺到1000亿参数规模的dLLM,LLaDA2.0系列模型的出现无疑为整个领域注入了强劲信心。
除了规模本身,LLaDA2.0所采用的“将成熟AR大模型平滑过渡到扩散框架”的思路同样值得关注。它表明,不同的生成范式并非非此即彼的对立关系,而是可以串联、融合、相互继承。这为扩散语言模型的规模化探索提供了一条切实可行的工程路径,打开了一片更广阔的技术设计空间。
与此同时,越来越多的顶尖团队正在入场,其中不乏像马斯克旗下xAI这样的科技巨头。
当然,dLLM距离真正成熟还有很长的路要走。更大的参数规模、更高效的强化学习与推理范式、更快的解码速度……每一项都是待攻克的难题。但方向已经明确,前景令人期待。
本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223856.html