当前位置:首页 > 科技资讯 > 正文

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行

Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其创新点在于引入后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现预训练Transformer的高效架构优化。与Qwen3、Gemma3等模型相比,Jet-Nemotron在多个维度上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。

英伟达近期对小模型领域展现出了浓厚兴趣。

英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行 Jet-Nemotron 小模型 后神经架构搜索 JetBlock 第1张

论文地址:https://arxiv.org/pdf/2508.15884

项目地址:https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列包含Jet-Nemotron-2B和Jet-Nemotron-4B两种规格。

英伟达表示,Jet-Nemotron系列在性能上超越了当前最先进的开源全注意力语言模型,如Qwen3、Gemma3和Llama3.2等。

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行 Jet-Nemotron 小模型 后神经架构搜索 JetBlock 第2张

同时,在H100 GPU上,其生成吞吐量最高可提升53.6倍

右上角的雷达图显示,Jet-Nemotron性能卓越,堪称六边形战士。

Jet-Nemotron-4B模型在六个维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)均表现优异。

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行 Jet-Nemotron 小模型 后神经架构搜索 JetBlock 第3张

在预填充和解码阶段,随着上下文增加,Jet-Nemotron-2B相对于Qwen 3的优势愈发明显。

总结来说,在同等硬件与评测设置下,Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升(解码可达50倍),同时准确率不降反升。

相比传统全注意力小模型,Jet-Nemotron又快又准。

核心创新

Jet-Nemotron的核心创新包括后神经架构搜索(PostNAS)和新型线性注意力模块JetBlock。

  • PostNAS:一种高效的训练后架构探索与适配流程,适用于任何预训练的Transformer模型;
  • JetBlock:一种新型线性注意力模块,性能显著优于先前的设计,如Mamba2。

PostNAS:训练后架构探索与适配

与从头开始训练以探索新模型架构的方法不同,PostNAS在预训练的Transformer模型基础上进行构建。同时支持对注意力块设计的灵活探索,从而降低了开发新语言模型架构的成本和风险。

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行 Jet-Nemotron 小模型 后神经架构搜索 JetBlock 第4张

JetBlock:具有SOTA准确率的新型线性注意力模块

通过PostNAS引入的JetBlock结合了动态卷积与硬件感知架构搜索,显著提升了准确率,同时保持了与先前设计相似的训练和推理吞吐量。

性能

在全面的基准测试中,Jet-Nemotron系列达到了或超过了主流高效语言模型的准确率。同时,其运行速度更快——分别比Qwen3-1.7B快21倍和47倍。

Jet-Nemotron:英伟达小模型系列震撼登场,性能超越同行 Jet-Nemotron 小模型 后神经架构搜索 JetBlock 第5张