当前位置:首页 > 科技资讯 > 正文

扩散模型革命:高效代码生成与并行处理

颠覆认知!扩散模型不只是生成图像和视频了,它现在还能高效编写代码,且速度超越传统大模型!

Inception Labs带来了基于扩散技术的商业级大语言模型——Mercury

扩散模型革命:高效代码生成与并行处理 扩散模型 大语言模型 并行生成 硬件优化 第1张

Mercury突破了自回归模型的限制,采用“从噪声到结构化输出”的方式,能一次性预测所有方向的token,极大提升了生成速度。

这一创新不仅解决了自回归模型“一旦生成难以回头调整”的问题,还赋予了模型在生成过程中动态纠错修改的能力,提高了灵活性。

扩散模型革命:高效代码生成与并行处理 扩散模型 大语言模型 并行生成 硬件优化 第2张

尽管采用了扩散技术,Mercury仍保留了Transformer架构,支持高效训练、推理优化技术,代码生成速度比传统工具快最多10倍。

H100 GPU上实现1109 tokens/秒吞吐量

Mercury结合扩散技术的并行生成能力,既保留了大模型的兼容性,又突破了自回归模型的速度限制。

扩散模型革命:高效代码生成与并行处理 扩散模型 大语言模型 并行生成 硬件优化 第3张

扩散生成流程

Mercury的核心在于“扩散式生成”,流程包括:

  • 训练阶段的正向过程:从真实文本出发,逐步加入噪声,最终变成随机噪声序列。
  • 推理阶段的反向过程(核心):从随机噪声开始,通过Transformer模型迭代优化,逐步去除噪声,生成符合真实分布的文本。

这一过程扩展了离散扩散方法,实现了大规模训练。

高效利用硬件

Mercury通过并行化文本生成、动态去噪调度、混合精度量化等技术,极致发挥GPU性能,降低训练和推理成本。

  • 并行化文本生成
  • 动态去噪调度算法
  • 混合精度量化技术

强大的错误纠正能力

Mercury能在生成过程中动态修改内容,引入双向注意力机制和实时纠错模块,提高代码准确性和可用性。

超快响应速度与当前CI能力不匹配

尽管Mercury实现了超高速代码生成,但当前CI能力仍是一大瓶颈。如何缓解这一问题成为关注的焦点。

Inception Labs团队

Mercury由Inception Labs开发,团队核心成员来自斯坦福、UCLA等顶尖学府,正致力于用扩散技术改进大模型性能。

扩散模型革命:高效代码生成与并行处理 扩散模型 大语言模型 并行生成 硬件优化 第4张