谁能预料到,在自回归模型(Autoregressive,AR)盛行的今天,一个非主流架构的模型竟然强势回归——
长期被视为学术玩物的扩散语言模型,竟在复杂编程任务中飙出了892 tokens/秒的惊人速度!
你没看错,当主流大模型还在以几十token的速度逐字蹦词时,这个非主流模型在100B参数规模上,已跑出了如此惊人的速度。
2025年,蚂蚁集团资深技术专家赵俊博曾携LLaDA2.0亮相量子位MEET大会,而今,他们的最新力作LLaDA2.1由蚂蚁技术研究院重磅开源!
三个月前,LLaDA2.0还是充满挑战的研究性模型。
而今,LLaDA2.1的诞生,标志着这一路线的历史性转折。它不再只是学术研究,而是真正可用、甚至效率更高的强大工具。
在业界纷纷卷向更大自回归模型时,蚂蚁如何低调铺设了另一条“能跑通的高速公路”?
接下来,我们一同探索这一非共识技术背后的奥秘。
深入技术之前,先探讨为何ChatGPT、Claude等总是慢条斯理。
它们几乎全采用自回归架构,如同不能打草稿的考生,必须从左到右、一字一句生成文本,写完即定稿,无法回头修改。
扩散模型则凭借并行理论优势,能同时处理所有文本位置,理论上一次成篇,拥有巨大速度潜力。
但早期扩散语言模型存在致命缺陷:容易胡说八道且缺乏全局一致性。为此,蚂蚁的LLaDA2.1祭出首个技术杀手锏:
基于可纠错编辑的底层能力,LLaDA2.1引入灵活双模式解码策略,支持极速与质量两种模式:
此前,LLaDA-MoE和LLaDA2.0需二次开发提供额外加速版本;这类版本虽加速但精度掉点严重,且增加用户选择难度及模型管理成本。
单模型双模式避免了上述问题。用户根据需求,仅需一条config即可切换模式。
为理解双模式机制,可回忆自己写作流程。
自回归模型如同不允许草稿纸和提纲的作者,下笔无悔且无法修改。
现实中我们多先写草稿,哪怕有错别字;写完后再细读一遍,修正不通顺和错误之处。
LLaDA2.1正是基于此原理工作,引入可纠错编辑(Error-Correcting Editable)机制。
其推理过程分两个阶段:
如果说可纠错编辑解决了生成问题,那么强化学习则解决生成质量的问题。
此前在扩散模型上应用RL被视为不可能任务。
原因在于自回归模型可分解token级概率乘积而扩散模型难以直接计算序列级似然导致传统方法失效。
LLaDA2.1团队为此定制EBPO算法:
这是业界首次在100B规模扩散模型上成功实施大规模RL训练。
结果显而易见:LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上显著提升证明扩散模型不仅能快更能懂你。
正如之前所提LLaDA2.1百亿参数版本在处理HumanEval+等复杂编程任务时实现了892 tokens/秒的峰值速度。
在同级别基准测试中这一速度表现已对主流自回归架构形成显著优势。
更值得关注的是这种速度并未牺牲质量。
在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中LLaDA2.1在质量模式下全面超越前代LLaDA2.0。
即使在追求速度的极速模式下其性能下降也微乎其微真正做到了鱼与熊掌兼得。
此外团队还开源了16B的Mini版本其在部分任务上的峰值速度甚至超过1500 tokens/秒为更轻量化的部署提供了可能。
它证明了一件事:
在大模型时代有敢把非共识走到底的耐心亦可取得胜利。
技术报告:https://huggingface.co/papers/...
GitHub地址:https://github.com/...
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435951.html