当前位置:首页 > 科技资讯 > 正文

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破

英伟达最新推出了名为Jet-Nemotron的小型语言模型系列,包含2B和4B参数版本,由全华人团队研发。其关键创新在于后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,基于预训练Transformer实现了高效架构优化。相比Qwen3、Gemma3、Llama3.2等主流模型,Jet-Nemotron在数学、代码、常识、检索和长上下文等任务上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。

英伟达近年来对「小模型」领域展现出持续关注。

该公司正式发布了一个全新的混合架构语言模型系列——Jet-Nemotron

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第1张

论文地址:https://arxiv.org/pdf/2508.15884

项目地址:https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列提供Jet-Nemotron-2B和Jet-Nemotron-4B两种规模选项。

英伟达宣称Jet-Nemotron系列在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等当前最先进的开源全注意力语言模型

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第2张

同时,该系列模型实现了显著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍

在右上角的雷达图中,Jet-Nemotron展现出全方位优势,堪称六边形战士。

Jet-Nemotron-4B模型在六个维度MMLU-pro、数学、检索、常识、代码、长上下文方面几乎达到满分。

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第3张

在预填充和解码阶段,随着上下文长度增加,Jet-Nemotron-2B相对于Qwen 3-1.7B的优势愈发明显。

简而言之,在同等硬件与评测设置下,Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升(解码阶段可达50倍提升)。

同时,在常识、数学、代码、检索和长上下文等维度的准确率不仅未降,反而有所提升。

相比传统全注意力小模型,Jet-Nemotron实现了速度与精度的双重突破。

显然,英伟达正加速布局小模型领域。

上一周,英伟达刚刚发布了9B参数的NVIDIA Nemotron Nano 2模型。

该模型在复杂推理基准测试中达到了与Qwen3-8B相当或更优的准确率,并且吞吐量最高可达其6倍

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第4张

而如今推出的更小的Jet系列,将参数规模进一步压缩至2B和4B。

核心创新

Jet-Nemotron的核心创新主要包括两项技术。

  • 后神经网络架构搜索(Post Neural Architecture Search,PostNAS),这是一种高效的训练后架构探索与适应流程,适用于任意预训练的Transformer模型;
  • JetBlock,一种新型线性注意力模块,其性能显著优于先前的设计,如Mamba2。

PostNAS:训练后架构探索与适配

与以往从头训练探索新架构的方法不同,PostNAS基于预训练的Transformer模型进行构建。

它支持对注意力块设计的灵活探索,从而大幅降低了开发新语言模型架构的成本和风险。

PostNAS首先确定全注意力层的最佳放置位置,然后再搜索改进的注意力块设计

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第5张

PostNAS从一个已预训练的全注意力模型出发,并将MLP冻结

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第6张

随后,对高效注意力块的设计进行由粗到细的搜索:

先确定全注意力层的最优放置位置,再选择最合适的线性注意力块采用新的线性注意力块,最后搜索最优的架构超参数

通过将PostNAS应用于基线模型,在所有基准测试上都取得了显著的准确率提升

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第7张

在预训练的Transformer模型中,并非所有注意力层的贡献都相同。

PostNAS揭示了预训练Transformer模型中关键的注意力层。

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第8张

KV缓存大小是影响长上下文和长生成吞吐量的最关键因素。

PostNAS硬件感知搜索能够发现一些架构,在保持相似生成吞吐量的同时,拥有更多参数并实现更高的准确性。

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第9张

JetBlock: 一种具有SOTA准确率的新型线性注意力模块

通过PostNAS,研究人员引入了JetBlock:一种新颖的线性注意力模块,它将动态卷积与硬件感知架构搜索相结合,以增强线性注意力,在保持与先前设计相似的训练和推理吞吐量的同时,实现了显著的准确率提升。

下方使用完全相同的训练数据和训练方案,对Mamba2 Block与JetBlock进行了公平对比。

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第10张

性能

Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基准测试中达到或超过了主流高效语言模型(例如Qwen3)的准确率。

同时运行速度明显更快——分别比Qwen3-1.7B-Base快21倍和47倍。

英伟达发布Jet-Nemotron小模型:PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型 第11张

参考资料

https://arxiv.org/pdf/2508.15884v1

https://x.com/hancai_hm/status/1960000017235902722