Grok-4-fast在降本增效方面的表现令人瞩目,甚至超越了拥有强大硬件支持的GPT5。
面对如此惊人的推理效率,许多人第一时间想到的是:是不是又靠堆硬件算力赢的?
实际上,Grok的背后确实有英伟达的影子。
但这次真正立功的,可能是英伟达的算法。
没错,Grok-4-fast的秘密武器,与一篇英伟达算法论文紧密相连。
正如Grok-4-fast所展现的那样,这篇论文解决了长期困扰行业的推理成本问题。
单靠硬件扩展只会让模型厂商的账单越积越多,用户的耐心也在漫长的推理时间中逐渐消磨殆尽。
为此,英伟达研究团队推出了一种全新「混合结构」模型——Jet-Nemotron。
经过一系列全面的基准测试,发现Jet-Nemotron-2B与Qwen3、Qwen2.5等顶尖开源模型不相上下,且能实现约53倍的速度提升。
例如,在MMLU-Pro上,Jet-Nemotron-2B不仅准确率高于Qwen3-1.7B-Base,就连生成速度也快上47倍。
此外,Jet-Nemotron-2B即便面对参数更大的模型也毫不逊色,其在MMLU和MMLU-Pro上的准确率甚至能超越DeepSeek-V3-Small和Moonlight(总参数量15B,激活参数量2.2B)。
这一切的关键在于一个新的框架——PortNAS。
不同于以往的方法,PortNAS不是从零开始训练,而是以一个预训练的全注意力模型为起点,并冻结其MLP权重,只探索注意力机制的改进。
这样一来,不仅能让训练成本直接降低几个数量级,还能有更多精力用于全面探索模型结构。
大多数团队会在模型的所有层里统一使用全注意力机制,但这会浪费算力资源。
因此,英伟达团队希望保留少量关键的全注意力层以维持复杂任务的准确性,同时剔除冗余层以提升效率。
PortNAS的做法是:先构建一个同时包含两种注意力机制的超级网络,再通过特征蒸馏来训练子网络,最后用beam search找到最优的注意力层放置方案。
事实证明,并非所有注意力层都重要,不同任务依赖不同层,少量关键层即可覆盖大部分任务需求。
在确定了全注意力层后,英伟达团队开始进行注意力模块搜索,旨在找到目前最优的线性注意力模块。
论文评估了六种当前最先进的线性注意力模块,包括RWKV7、RetNet等。
其中,Gated DeltaNet的准确率最高,这主要得益于两个因素:
不过,英伟达并不打算止步于Gated DeltaNet。他们设计了一款比它更强的线性注意力模块——JetBlock。
卷积对线性注意力模块的准确率至关重要。然而,以往方法大多使用静态卷积核。相比之下,JetBlock使用动态卷积,通过在线性注意力中引入一个卷积核生成器模块,能根据输入特征动态地产生卷积核。
在确定了宏观架构以及选择了线性注意力模块之后,英伟达团队进一步进行了硬件感知架构搜索以优化核心超参数。
过去,参数规模通常被作为衡量模型效率的主要指标。但英伟达团队认为这种方法并不理想。为此,他们选择以生成吞吐量作为直接目标来选择超参数。
Grok-4-fast和Jet-Nemotron同样惊艳且高度相似的表现让人不禁怀疑它们之间是否有联系。
Jet-Nemotron可以在不牺牲模型性能的情况下大幅减少推理所需的计算量,这与Grok-4-fast所展现出来的能力高度相似。
论文的一作是顾煜贤博士,他是清华大学计算机科学与技术系交互式人工智能(CoAI)课题组的四年级博士生。论文的通讯作者是Han Cai博士。他目前是NVIDIA Research的一名研究科学家。他的本科和硕士均就读于上海交通大学。Han Cai的研究重心在于高效的基础模型、EdgeAI和AutoML。目前他的论文在Google Scholar上累计被引用超一万次。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260541965.html