当前位置:首页 > 科技资讯 > 正文

揭秘:英伟达开源Jet-Nemotron,语言模型新突破

英伟达在开源领域再度发力,推出全新语言模型——Jet-Nemotron

韩松团队打造的这款模型,基于后神经架构搜索(Post Neural Architecture Search, PostNAS),展现出了卓越的性能。

在基准测试中,Jet-Nemotron不仅达到了与Qwen3、Qwen2.5等顶尖模型相当的准确率,还在生成吞吐量和预填充阶段实现了显著加速,最高可达53.6倍和6.1倍。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第1张

值得一提的是,在MMLU、MMLU-Pro和BBH基准上,Jet-Nemotron-2B相比Qwen3-1.7B-Base的吞吐量提高了47倍,缓存大小更是缩小至1/47。

此外,该模型还实现了比DeepSeek-V3-Small和Moonlight更高的准确率。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第2张

Jet-Nemotron的构建过程同样引人注目。它采用了后神经架构搜索技术,通过对预训练模型的权重进行冻结和改造,实现了性能优化。

Jet-Nemotron:后神经架构搜索的杰作

该模型首先在后神经架构搜索的基础上构建,通过“站在大模型肩膀上做改造”的方式,逐步优化。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第3张

研究团队通过四个关键步骤对模型进行了优化:全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块以及执行硬件感知架构搜索。

全注意力层的放置和消除

研究团队通过训练一个“一次性”超级网络,自动学习全注意力层的最优位置,从而提升了模型的准确率。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第4张

选择线性注意力模块

研究团队评估了多个线性注意力模块,最终选择了Gated DeltaNet,因为它实现了最优的整体准确率。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第5张

设计新型注意力模块

研究团队引入了一种名为JetBlock的新型线性注意力模块,能够动态生成卷积核,从而增强模型的性能。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第6张

执行硬件感知架构搜索

研究团队发现,参数量与硬件效率并不直接相关。因此,他们通过固定KV缓存大小,对关键维度进行了小范围搜索,从而实现了更高的效率和准确率。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第7张

显著的效率提升

Jet-Nemotron-2B和Jet-Nemotron-4B分别基于Qwen2.5-1.5B和Qwen2.5-3B模型构建。在数学、常识、检索、编码以及长上下文任务中,该模型均表现出色。

数学任务上,Jet-Nemotron-2B的平均准确率比Qwen3-1.7B-Base高6.3,同时速度快47倍。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第8张

常识推理任务上,Jet-Nemotron-2B的平均准确率达到了62.0,超越所有基线模型。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第9张

团队介绍

这支由华人组成的研究团队,展现了强大的科研实力和创新精神。

揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第10张
Yuxian Gu











































揭秘:英伟达开源Jet-Nemotron,语言模型新突破 Jet-Nemotron 后神经架构搜索 语言模型 效率提升 第11张/…