英伟达最新推出了名为Jet-Nemotron的小型语言模型系列,包含2B和4B参数版本,由全华人团队研发。其关键创新在于后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,基于预训练Transformer实现了高效架构优化。相比Qwen3、Gemma3、Llama3.2等主流模型,Jet-Nemotron在数学、代码、常识、检索和长上下文等任务上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。
英伟达近年来对「小模型」领域展现出持续关注。
该公司正式发布了一个全新的混合架构语言模型系列——Jet-Nemotron。
论文地址:https://arxiv.org/pdf/2508.15884
项目地址:https://github.com/NVlabs/Jet-Nemotron
Jet-Nemotron系列提供Jet-Nemotron-2B和Jet-Nemotron-4B两种规模选项。
英伟达宣称Jet-Nemotron系列在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等当前最先进的开源全注意力语言模型。
同时,该系列模型实现了显著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍。
在右上角的雷达图中,Jet-Nemotron展现出全方位优势,堪称六边形战士。
Jet-Nemotron-4B模型在六个维度MMLU-pro、数学、检索、常识、代码、长上下文方面几乎达到满分。
在预填充和解码阶段,随着上下文长度增加,Jet-Nemotron-2B相对于Qwen 3-1.7B的优势愈发明显。
简而言之,在同等硬件与评测设置下,Jet-Nemotron在长上下文场景中实现了吞吐量的数量级提升(解码阶段可达50倍提升)。
同时,在常识、数学、代码、检索和长上下文等维度的准确率不仅未降,反而有所提升。
相比传统全注意力小模型,Jet-Nemotron实现了速度与精度的双重突破。
显然,英伟达正加速布局小模型领域。
上一周,英伟达刚刚发布了9B参数的NVIDIA Nemotron Nano 2模型。
该模型在复杂推理基准测试中达到了与Qwen3-8B相当或更优的准确率,并且吞吐量最高可达其6倍。
而如今推出的更小的Jet系列,将参数规模进一步压缩至2B和4B。
Jet-Nemotron的核心创新主要包括两项技术。
与以往从头训练探索新架构的方法不同,PostNAS基于预训练的Transformer模型进行构建。
它支持对注意力块设计的灵活探索,从而大幅降低了开发新语言模型架构的成本和风险。
PostNAS首先确定全注意力层的最佳放置位置,然后再搜索改进的注意力块设计。
PostNAS从一个已预训练的全注意力模型出发,并将MLP冻结。
随后,对高效注意力块的设计进行由粗到细的搜索:
先确定全注意力层的最优放置位置,再选择最合适的线性注意力块或采用新的线性注意力块,最后搜索最优的架构超参数。
通过将PostNAS应用于基线模型,在所有基准测试上都取得了显著的准确率提升。
在预训练的Transformer模型中,并非所有注意力层的贡献都相同。
PostNAS揭示了预训练Transformer模型中关键的注意力层。
KV缓存大小是影响长上下文和长生成吞吐量的最关键因素。
PostNAS硬件感知搜索能够发现一些架构,在保持相似生成吞吐量的同时,拥有更多参数并实现更高的准确性。
通过PostNAS,研究人员引入了JetBlock:一种新颖的线性注意力模块,它将动态卷积与硬件感知架构搜索相结合,以增强线性注意力,在保持与先前设计相似的训练和推理吞吐量的同时,实现了显著的准确率提升。
下方使用完全相同的训练数据和训练方案,对Mamba2 Block与JetBlock进行了公平对比。
Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基准测试中达到或超过了主流高效语言模型(例如Qwen3)的准确率。
同时运行速度明显更快——分别比Qwen3-1.7B-Base快21倍和47倍。
https://arxiv.org/pdf/2508.15884v1
https://x.com/hancai_hm/status/1960000017235902722
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212775.html