英伟达在开源领域再度发力,推出全新语言模型——Jet-Nemotron!
韩松团队打造的这款模型,基于后神经架构搜索(Post Neural Architecture Search, PostNAS),展现出了卓越的性能。
在基准测试中,Jet-Nemotron不仅达到了与Qwen3、Qwen2.5等顶尖模型相当的准确率,还在生成吞吐量和预填充阶段实现了显著加速,最高可达53.6倍和6.1倍。
值得一提的是,在MMLU、MMLU-Pro和BBH基准上,Jet-Nemotron-2B相比Qwen3-1.7B-Base的吞吐量提高了47倍,缓存大小更是缩小至1/47。
此外,该模型还实现了比DeepSeek-V3-Small和Moonlight更高的准确率。
Jet-Nemotron的构建过程同样引人注目。它采用了后神经架构搜索技术,通过对预训练模型的权重进行冻结和改造,实现了性能优化。
该模型首先在后神经架构搜索的基础上构建,通过“站在大模型肩膀上做改造”的方式,逐步优化。
研究团队通过四个关键步骤对模型进行了优化:全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块以及执行硬件感知架构搜索。
研究团队通过训练一个“一次性”超级网络,自动学习全注意力层的最优位置,从而提升了模型的准确率。
研究团队评估了多个线性注意力模块,最终选择了Gated DeltaNet,因为它实现了最优的整体准确率。
研究团队引入了一种名为JetBlock的新型线性注意力模块,能够动态生成卷积核,从而增强模型的性能。
研究团队发现,参数量与硬件效率并不直接相关。因此,他们通过固定KV缓存大小,对关键维度进行了小范围搜索,从而实现了更高的效率和准确率。
Jet-Nemotron-2B和Jet-Nemotron-4B分别基于Qwen2.5-1.5B和Qwen2.5-3B模型构建。在数学、常识、检索、编码以及长上下文任务中,该模型均表现出色。
数学任务上,Jet-Nemotron-2B的平均准确率比Qwen3-1.7B-Base高6.3,同时速度快47倍。
常识推理任务上,Jet-Nemotron-2B的平均准确率达到了62.0,超越所有基线模型。
这支由华人组成的研究团队,展现了强大的科研实力和创新精神。
Yuxian Gu
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440216.html