英伟达在开源领域再次展现其技术领导力,最新发布的Jet-Nemotron语言模型基于创新的后神经架构搜索技术,实现了效率与性能的双重突破。
韩松团队成功研发了一款名为Jet-Nemotron的高效语言模型,该模型采用后神经架构搜索方法,在多个基准测试中表现卓越。
实验数据显示,Jet-Nemotron在准确率上可与Qwen3、Qwen2.5、Gemma 3和Llama 3.2等主流模型媲美甚至超越,同时在生成吞吐量上实现了最高53.6倍的加速,预填充阶段也达到6.1倍加速,显著提升了推理效率。
值得注意的是,在MMLU、MMLU-Pro和BBH基准测试中,Jet-Nemotron-2B相比Qwen3-1.7B-Base,吞吐量提升了47倍,缓存大小缩减至1/47,资源利用率大幅优化。
此外,该模型在准确率上还超越了DeepSeek-V3-Small和Moonlight等具有150亿参数和22亿激活参数的模型,展示了其高效架构的优势。
研究团队承诺将开源代码和预训练模型,让开发者能够深入探索Jet-Nemotron的构建细节和应用潜力。
Jet-Nemotron的核心构建基础是后神经架构搜索(Post Neural Architecture Search,PostNAS),这是一种在预训练大模型基础上进行架构优化的创新方法。
后神经架构搜索模型通过“站在巨人肩膀上”的方式,从一个全注意力预训练模型出发,继承并冻结其多层感知机权重,从而高效地搜索最优架构。
Jet-Nemotron通过以下四个关键步骤实现优化:
在模型中保留少量全注意力层对处理检索等高难度任务至关重要,但其最佳位置一直难以确定。
研究团队开发了一种新方法,通过训练“一次性”超级网络,自动学习全注意力层的最优放置位置,从而提升模型性能。
实验证明,这种学习到的放置方式相比均匀放置策略,在MMLU基准上准确率有显著提高。
确定全注意力层放置后,团队进行注意力模块搜索,从6个先进线性注意力模块中筛选最优解。
评估结果显示,Gated DeltaNet在整体准确率上表现最佳,因此被选为后续实验的基础模块。
为增强线性注意力能力,团队引入JetBlock新型模块,采用动态因果卷积核生成器,根据输入内容自适应调整卷积核,提升特征提取灵活性。
此模块在值词元上应用动态卷积核,同时简化查询和键的静态卷积,优化计算流程。
传统参数数量不能直接反映硬件效率,团队发现KV缓存大小是影响长上下文和生成吞吐量的关键因素。
通过固定KV缓存大小,并对键维度、值维度和注意力头数进行网格搜索,这种硬件感知方法在保持生成吞吐量的同时,利用更多参数提升准确率。团队计划在GitHub上开源代码和模型,正进行法律合规审核。
Jet-Nemotron-2B和Jet-Nemotron-4B分别基于Qwen2.5-1.5B和Qwen2.5-3B构建,在多个任务中展现卓越性能。
数学任务上,Jet-Nemotron-2B平均准确率达49.6,超越Qwen3-1.7B-Base 6.3分,速度提升47倍。
此前线性注意力和混合模型在数学任务上均落后于Qwen3-1.7B-Base,Jet-Nemotron实现了反超。
常识推理任务上,Jet-Nemotron-2B以62.0的平均准确率领先所有基线模型。
检索任务上,Jet-Nemotron-2B表现优异,仅次于Qwen3-1.7B-Base;扩展到4B版本后,Jet-Nemotron-4B以76.2的平均准确率创下新高,同时保持21倍速度优势。
编码任务上,Jet-Nemotron-2B平均准确率高于所有基线;4B版本在所有编码任务中准确率进一步提升。
长上下文任务上,Jet-Nemotron-2B仅有两个全注意力层,但性能媲美更多全注意力层的领先模型如Qwen2.5-1.5B和Gemma3n-E2B。
总体而言,Jet-Nemotron-2B和Jet-Nemotron-4B在多个领域与Qwen3-1.7B-Base表现相当或更优,同时凭借减少的全注意力层和更小的KV缓存,在效率上具有明显优势。
该项目由全华人团队主导,成员来自麻省理工学院、清华大学等顶尖机构。
Yuxian Gu,清华大学计算机科学与技术系博士,导师为黄民烈教授,曾在微软亚洲研究院实习。研究聚焦语言模型全生命周期,包括预训练、任务适配和高效推理,近期专注于数据构建理论及模型压缩技术。
胡擎昊,浙江大学本科、新加坡国立大学硕士毕业,现为麻省理工学院韩松教授博士后研究员。
Shang Yang,麻省理工学院三年级博士生,导师为韩松教授,本科毕业于清华大学电子工程系。
Haochen Xi,清华大学姚班本科毕业,导师为姚期智院士,现为加州大学伯克利分校计算机科学博士和MLsys研究员。
Junyu Chen,清华大学姚班本科生,曾在麻省理工学院HAN实验室实习,导师为韩松教授,研究方向包括3D视觉感知和人机交互。
韩松,麻省理工学院电子工程学院副教授,本科毕业于清华大学,斯坦福大学博士。他提出的“深度压缩”和“高效推理机”技术影响了NVIDIA安培GPU架构,还是TinyML边缘设备机器学习的先驱。2023年其创办的OmniML被英伟达收购后,他加入英伟达成为杰出科学家。
蔡涵,NVIDIA研究院研究科学家,拥有上海交通大学硕士和学士学位,以及麻省理工学院电子工程与计算机科学博士学位。
[1]https://arxiv.org/abs/2508.15884
[2]https://github.com/NVlabs/Jet-Nemotron
[3]https://x.com/iScienceLuvr/status/1959832287073403137
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212798.html