Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其创新点在于引入后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现预训练Transformer的高效架构优化。与Qwen3、Gemma3等模型相比,Jet-Nemotron在多个维度上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。
英伟达近期对小模型领域展现出了浓厚兴趣。
英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron。
Jet-Nemotron系列包含Jet-Nemotron-2B和Jet-Nemotron-4B两种规格。
英伟达表示,Jet-Nemotron系列在性能上超越了当前最先进的开源全注意力语言模型,如Qwen3、Gemma3和Llama3.2等。
同时,在H100 GPU上,其生成吞吐量最高可提升53.6倍。
右上角的雷达图显示,Jet-Nemotron性能卓越,堪称六边形战士。
Jet-Nemotron-4B模型在六个维度(MMLU-pro、Math、Retrieval、Commonsense、Code、Long)均表现优异。
在预填充和解码阶段,随着上下文增加,Jet-Nemotron-2B相对于Qwen 3的优势愈发明显。
总结来说,在同等硬件与评测设置下,Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升(解码可达50倍),同时准确率不降反升。
相比传统全注意力小模型,Jet-Nemotron又快又准。
Jet-Nemotron的核心创新包括后神经架构搜索(PostNAS)和新型线性注意力模块JetBlock。
与从头开始训练以探索新模型架构的方法不同,PostNAS在预训练的Transformer模型基础上进行构建。同时支持对注意力块设计的灵活探索,从而降低了开发新语言模型架构的成本和风险。
通过PostNAS引入的JetBlock结合了动态卷积与硬件感知架构搜索,显著提升了准确率,同时保持了与先前设计相似的训练和推理吞吐量。
在全面的基准测试中,Jet-Nemotron系列达到了或超过了主流高效语言模型的准确率。同时,其运行速度更快——分别比Qwen3-1.7B快21倍和47倍。
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440202.html