当前位置：首页 > 科技资讯 > 正文

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破

主机测评网
科技资讯
2025-12-26
618

英伟达最新推出了名为Jet-Nemotron的小型语言模型系列，包含2B和4B参数版本，由全华人团队研发。其关键创新在于后神经架构搜索（PostNAS）与新型线性注意力模块JetBlock，基于预训练Transformer实现了高效架构优化。相比Qwen3、Gemma3、Llama3.2等主流模型，Jet-Nemotron在数学、代码、常识、检索和长上下文等任务上准确率更高，同时在H100 GPU上推理吞吐量最高提升至53倍。

英伟达近年来对「小模型」领域展现出持续关注。

该公司正式发布了一个全新的混合架构语言模型系列——Jet-Nemotron。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第1张

论文地址：https://arxiv.org/pdf/2508.15884

项目地址：https://github.com/NVlabs/Jet-Nemotron

Jet-Nemotron系列提供Jet-Nemotron-2B和Jet-Nemotron-4B两种规模选项。

英伟达宣称Jet-Nemotron系列在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等当前最先进的开源全注意力语言模型。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第2张

同时，该系列模型实现了显著的效率提升，在H100 GPU上生成吞吐量最高可提升53.6倍。

在右上角的雷达图中，Jet-Nemotron展现出全方位优势，堪称六边形战士。

Jet-Nemotron-4B模型在六个维度MMLU-pro、数学、检索、常识、代码、长上下文方面几乎达到满分。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第3张

在预填充和解码阶段，随着上下文长度增加，Jet-Nemotron-2B相对于Qwen 3-1.7B的优势愈发明显。

简而言之，在同等硬件与评测设置下，Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升（解码阶段可达50倍提升）。

同时，在常识、数学、代码、检索和长上下文等维度的准确率不仅未降，反而有所提升。

相比传统全注意力小模型，Jet-Nemotron实现了速度与精度的双重突破。

显然，英伟达正加速布局小模型领域。

上一周，英伟达刚刚发布了9B参数的NVIDIA Nemotron Nano 2模型。

该模型在复杂推理基准测试中达到了与Qwen3-8B相当或更优的准确率，并且吞吐量最高可达其6倍。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第4张

而如今推出的更小的Jet系列，将参数规模进一步压缩至2B和4B。

核心创新

Jet-Nemotron的核心创新主要包括两项技术。

后神经网络架构搜索（Post Neural Architecture Search，PostNAS），这是一种高效的训练后架构探索与适应流程，适用于任意预训练的Transformer模型；
JetBlock，一种新型线性注意力模块，其性能显著优于先前的设计，如Mamba2。

PostNAS：训练后架构探索与适配

与以往从头训练探索新架构的方法不同，PostNAS基于预训练的Transformer模型进行构建。

它支持对注意力块设计的灵活探索，从而大幅降低了开发新语言模型架构的成本和风险。

PostNAS首先确定全注意力层的最佳放置位置，然后再搜索改进的注意力块设计。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第5张

PostNAS从一个已预训练的全注意力模型出发，并将MLP冻结。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第6张

随后，对高效注意力块的设计进行由粗到细的搜索：

先确定全注意力层的最优放置位置，再选择最合适的线性注意力块或采用新的线性注意力块，最后搜索最优的架构超参数。

通过将PostNAS应用于基线模型，在所有基准测试上都取得了显著的准确率提升。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第7张

在预训练的Transformer模型中，并非所有注意力层的贡献都相同。

PostNAS揭示了预训练Transformer模型中关键的注意力层。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第8张

KV缓存大小是影响长上下文和长生成吞吐量的最关键因素。

PostNAS硬件感知搜索能够发现一些架构，在保持相似生成吞吐量的同时，拥有更多参数并实现更高的准确性。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第9张

JetBlock：一种具有SOTA准确率的新型线性注意力模块

通过PostNAS，研究人员引入了JetBlock：一种新颖的线性注意力模块，它将动态卷积与硬件感知架构搜索相结合，以增强线性注意力，在保持与先前设计相似的训练和推理吞吐量的同时，实现了显著的准确率提升。

下方使用完全相同的训练数据和训练方案，对Mamba2 Block与JetBlock进行了公平对比。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第10张

性能

Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基准测试中达到或超过了主流高效语言模型（例如Qwen3）的准确率。

同时运行速度明显更快——分别比Qwen3-1.7B-Base快21倍和47倍。

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破 Jet-Nemotron PostNAS JetBlock 小模型第11张

参考资料

https://arxiv.org/pdf/2508.15884v1

https://x.com/hancai_hm/status/1960000017235902722

性价比服务器阿里云服务器服务器教程

本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20251212775.html

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破

核心创新

PostNAS：训练后架构探索与适配

JetBlock：一种具有SOTA准确率的新型线性注意力模块

性能

参考资料

C语言优先队列实现（从零开始掌握堆结构构建高效优先队列）

Centos集成测试工具入门指南（手把手教你搭建Linux自动化测试环境）

英伟达发布Jet-Nemotron小模型：PostNAS与JetBlock驱动性能与效率双突破

核心创新

PostNAS：训练后架构探索与适配

JetBlock： 一种具有SOTA准确率的新型线性注意力模块

性能

参考资料

C语言优先队列实现（从零开始掌握堆结构构建高效优先队列）

Centos集成测试工具入门指南（手把手教你搭建Linux自动化测试环境）

相关文章

JetBlock：一种具有SOTA准确率的新型线性注意力模块