当前位置：首页 > 科技资讯 > 正文

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行

主机测评网
科技资讯
2026-04-25
640

Jet-Nemotron是英伟达最新推出的小模型系列（2B/4B），由全华人团队打造。其创新点在于引入后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，实现预训练Transformer的高效架构优化。与Qwen3、Gemma3等模型相比，Jet-Nemotron在多个维度上准确率更高，同时在H100 GPU上推理吞吐量最高提升至53倍。

英伟达近期对小模型领域展现出了浓厚兴趣。

英伟达发布了一个全新的混合架构语言模型系列，Jet-Nemotron。

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行 Jet-Nemotron 小模型后神经架构搜索 JetBlock 第1张

论文地址：https://arxiv.org/pdf/2508.15884

项目地址：https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列包含Jet-Nemotron-2B和Jet-Nemotron-4B两种规格。

英伟达表示，Jet-Nemotron系列在性能上超越了当前最先进的开源全注意力语言模型，如Qwen3、Gemma3和Llama3.2等。

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行 Jet-Nemotron 小模型后神经架构搜索 JetBlock 第2张

同时，在H100 GPU上，其生成吞吐量最高可提升53.6倍。

右上角的雷达图显示，Jet-Nemotron性能卓越，堪称六边形战士。

Jet-Nemotron-4B模型在六个维度（MMLU-pro、Math、Retrieval、Commonsense、Code、Long）均表现优异。

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行 Jet-Nemotron 小模型后神经架构搜索 JetBlock 第3张

在预填充和解码阶段，随着上下文增加，Jet-Nemotron-2B相对于Qwen 3的优势愈发明显。

总结来说，在同等硬件与评测设置下，Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升（解码可达50倍），同时准确率不降反升。

相比传统全注意力小模型，Jet-Nemotron又快又准。

核心创新

Jet-Nemotron的核心创新包括后神经架构搜索（PostNAS）和新型线性注意力模块JetBlock。

PostNAS：一种高效的训练后架构探索与适配流程，适用于任何预训练的Transformer模型；
JetBlock：一种新型线性注意力模块，性能显著优于先前的设计，如Mamba2。

PostNAS：训练后架构探索与适配

与从头开始训练以探索新模型架构的方法不同，PostNAS在预训练的Transformer模型基础上进行构建。同时支持对注意力块设计的灵活探索，从而降低了开发新语言模型架构的成本和风险。

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行 Jet-Nemotron 小模型后神经架构搜索 JetBlock 第4张

JetBlock：具有SOTA准确率的新型线性注意力模块

通过PostNAS引入的JetBlock结合了动态卷积与硬件感知架构搜索，显著提升了准确率，同时保持了与先前设计相似的训练和推理吞吐量。

性能

在全面的基准测试中，Jet-Nemotron系列达到了或超过了主流高效语言模型的准确率。同时，其运行速度更快——分别比Qwen3-1.7B快21倍和47倍。

Jet-Nemotron：英伟达小模型系列震撼登场，性能超越同行 Jet-Nemotron 小模型后神经架构搜索 JetBlock 第5张

高防服务器云服务器

本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440202.html

上一篇

奥迪E5 Sportback：豪华与科技的碰撞

下一篇

格林美启动“A+H”双融资模式，加速动力电池回收业务