就在刚刚,DeepSeek全新研究成果正式发布,梁文锋作为联合作者署名其中!
这一次,他们与北京大学强强联手,直指Transformer架构最核心的痛点——「记忆」机制的缺失,这也是当前大模型发展的关键难题。
如今,混合专家模型(MoE)已成为大模型的主流架构,但其本质仍未脱离Transformer框架。由于缺乏原生的「知识查找」机制,许多本应简单检索的任务,不得不依靠庞大的计算资源去模拟实现,造成大量算力浪费。
在这篇长达33页的论文中,研究团队提出了一种与MoE互补的全新维度——「条件记忆」稀疏轴,并通过创新的Engram模块将其落地:
他们将经典的哈希N-gram方法进行现代化改造,使其能够以近乎O(1)的复杂度实现确定性的知识查找,极大提升了检索效率。
论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
通过「稀疏分配」(Sparsity Allocation)建模,研究人员意外发现MoE与Engram之间存在一条「U形缩放定律」(U-shaped scaling law)。
这意味着,在实际应用中需要精细调整二者之间的资源配比,从而在动态计算与静态记忆之间找到最优平衡点。
遵循这一规律,团队将Engram扩展至270亿参数规模,并在严格等参数、等计算量(FLOPs)的条件下,取得了全面优于MoE基线的性能表现。
通俗地讲,MoE解决的是「如何减少无效计算」,而Engram则从根源上避免了「盲目计算」。
它将需要查询的任务交给O(1)的记忆模块,将注意力从局部琐碎的模式中解放出来,结果不仅是知识记忆能力更强,推理、代码、数学等综合能力也同步提升。
这或许将成为稀疏大模型领域的一条主流技术路线,更值得期待的是,下一代DeepSeek V4很可能将这一新方法集成其中。
当前,大语言模型规模不断扩大已成为业界共识的「铁律」,其发展路径清晰可见——
不断扩大参数规模,同时让计算过程变得「稀疏」。
混合专家模型(MoE)正是这一思路的典型代表:每个Token仅激活少量专家,通过「条件计算」实现参数规模飙升,同时控制计算量(FLOPs)。
从Artifical Analysis榜单可见,现有的稀疏大模型绝大多数都采用MoE架构。
但问题在于,Transformer缺乏一种「原生知识查找」的能力,因此许多本应像检索一样O(1)完成的任务,被迫用大量计算去模拟检索过程,效率低下且不划算。
北大和DeepSeek的这篇新论文提出了一个极具启发性的观点:稀疏化不仅可以服务于「计算」,同样可以服务于「记忆」。
基于此,团队提出了Engram模块,将语言建模中大量「固定、局部、刻板」的模式,交给一个可扩展的查表模块来承担。
这样一来,Transformer主干就可以将注意力和深度资源集中在更需要「组合与推理」的任务上。
论文中,作者明确将语言建模拆分为两类子任务:
一部分任务需要「组合与推理」:如上下文关系建模、长程依赖捕捉、逻辑推理、链式推理等。
另一部分任务则更像「模式检索」:如实体名称、固定搭配、常见短语、语法片段、重复出现的局部结构等。
后者的共同特征非常明显:它们往往是局部的、稳定的、重复出现的。
如果依靠多层注意力和前馈网络(FFN)去「计算」这些模式,模型虽然能做到,但成本极高,还会挤占早期层的表达能力。
例如,要识别实体「戴安娜,威尔士王妃」(Diana, Princess of Wales),LLM必须消耗多层注意力和FFN来逐步组合特征,而这个过程理论上可以通过一次知识查找操作完成。
Engram的目标非常直接——
将这类「局部静态模式」转移到一种廉价的知识查找原语中。
它用确定性的查表快速给出候选信息,再由上下文决定是否采纳。
Engram一词源于神经科学,原意为「记忆痕迹」,是一种可扩展、可检索的记忆单元。
它可以用于存储LLM在推理过程中可能接触到的模式和信息片段。
可以将Engram理解为对经典「哈希N-gram嵌入」的现代化改造,将其做成一个插入在Transformer中间层的「可扩展查表模块」。
如图1所示,Engram是一个条件记忆模块,旨在通过从结构上分离静态模式存储与动态计算,从而增强Transformer骨干网络。
形式化地说,给定输入序列X=(x_1,...,x_T)和第l层的隐藏状态H^(l)∈R^Txd,该模块分两个功能阶段处理每个位置t:检索和融合。
接下来,我们一起看看Engram的关键设计点。
第一阶段主要负责将局部上下文映射到静态的记忆条目中,这通过分词器压缩和确定性哈希检索嵌入来实现。
分词器压缩
为了最大化语义密度,作者引入了一个词表投影层。
他们预先计算了一个满射函数P:V→V",利用归一化的文本等价性(如NFKC、小写化等)将原始Token ID坍缩成规范标识符。
这个过程能让128k大小的分词器有效词表大小减少23%。
多头哈希
直接参数化所有可能的N-grams组合空间,在计算上是行不通的。作者采用了一种基于哈希的方法。
为了减少冲突,他们为每个N-gram阶数n分配了K个不同的哈希头。
每个头k通过一个确定性函数φ_n,k,将压缩后的上下文映射到嵌入表E_n,k中的一个索引:
检索到的嵌入e_t充当的是上下文无关的先验信息。不过,它们容易受到哈希冲突或多义词带来的噪声干扰。
为了增强表达力并解决这种歧义,作者采用了一套受注意力机制启发的上下文感知门控机制。
他们利用当前的隐藏状态h_t作为动态的Query,而检索到的记忆e_t则作为Key和Value投影的来源:
其中W_K,W_V是可学习的投影矩阵。
为了保证梯度稳定性,他们在计算标量门α_t∈(0,1)之前,先对Query和Key进行RMSNorm处理:
最后,为了扩大感受野并增强模型的非线性,作者还引入了一个短的深度因果卷积:
门控可视化
为了实证验证Engram是否按预期行为,作者在图7中可视化了Engram-27B在各种样本上的门控标量α_t。
结果展示了明显的选择性模式。门控机制在处理局部、静态模式时一致地激活(显示为红色)。
在英文中,观察到在多Token命名实体(如Alexander the Great、the Milky Way)和固定短语(如By the way,Princess of Wales)上有强烈的激活。
关键是,这种行为能有效地跨语言泛化。
在中文示例中,Engram能够识别并检索独特的习语表达和历史实体,例如「四大发明」和「张仲景」。
这些定性结果证实,Engram成功识别并处理了固定的语言依赖关系,有效地将Transformer骨干网络从记忆这些静态关联中解放出来。
扩展记忆增强型模型往往受限于GPU高带宽内存(HBM)的容量。
然而,Engram的确定性检索机制天然支持将参数存储与计算资源解耦。
与依赖运行时隐藏状态进行动态路由的混合专家模型(MoE)不同,Engram的检索索引仅取决于输入的Token序列。
这种可预测性为训练和推理提供了专门的优化策略,如图2所示。
训练阶段,为了容纳大规模嵌入表,他们采用标准的模型并行策略,将表分片存储在可用的GPU上。
推理阶段,这种确定性特性使得「预取和重叠」策略成为可能。
Engram作为条件记忆的一种实现形式,在结构上与MoE专家提供的条件计算是互补的。
这里,主要研究了以下两个关键问题:
1. 有限约束下的分配
2. 无限内存场景
作者通过三个参数指标来分析MoE和Engram之间的权衡:
P_tot:总可训练参数,不包括词表嵌入和LM头。
P_act:每个Token的激活参数量。这个数值决定了训练成本(FLOPs)。
P_sparse≜P_tot-P_act:非激活参数,这代表了「免费」的参数预算,可用于在不增加计算成本的情况下扩展模型规模。
作者将分配比例ρ∈[0,1]定义为分配给MoE专家容量的非激活参数预算的比例:
直观来说:
ρ=1对应纯MoE模型(所有非激活参数都是参与路由的专家)。
ρ<1则减少路由专家的数量,并将释放出来的参数重新分配给Engram嵌入槽位。
图3(左)展示了验证损失与分配比例ρ之间存在一致的U型关系。
这种U型关系证实了两个模块之间的结构互补性:
MoE主导(ρ→100):模型缺乏用于存储静态模式的专用内存,迫使它只能通过增加深度和计算量来低效地重建这些模式。
Engram主导(ρ→0%):模型失去了条件计算能力,从而损害了那些需要动态、上下文依赖推理的任务;在这种场景下,记忆无法替代计算。
接下来,作者探索了一种互补的设置:激进的内存扩展。
图3(右)表明,扩展内存槽位的数量能带来清晰且一致的验证损失改善。
在探索的范围内,曲线遵循严格的幂律,这表明Engram提供了一种可预测的扩展调节手段:更大的内存能持续带来收益,而无需额外的计算量。
关于扩展效率关键的一点是:虽然OverEncoding的直接平均方法也能受益于更大的内存表,但Engram在相同的内存预算下解锁了更大的扩展潜力。
结合分配定律,这些结果验证了——
条件记忆可以作为稀疏容量的一个独特且可扩展的维度,与MoE的条件计算相辅相成。
基于Engram架构以及实验得出的分配定律,作者将Engram扩展到了数十亿参数的级别,以此来验证其在现实世界LLM预训练中的有效性。
他们训练了以下四个模型:
·Dense-4B (总参数4.1B)
·MoE-27B (总参数26.7B)
·Engram-27B (总参数26.7B)
·Engram-40B (总参数39.5B)
首先,与先前文献结论一致,稀疏架构表现出了优于密集模型的扩展定律。
在相同的训练计算预算下,所有三个稀疏变体(MoE-27B,Engram-27B/40B)在所有基准测试中都显著击败了等FLOPs的Dense-4B基线。
更重要的是,Engram-27B始终优于等参数且等FLOPs的MoE-27B基线。
有趣的是,这些收益并不仅限于知识密集型任务(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。
在通用推理领域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及代码和数学推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更为显著。
这些结果支持了他们的假设:引入一个专用的知识查找原语所带来的表示效率提升,要超过将所有稀疏预算都分配给条件计算的效果。
最后,扩展到Engram-40B进一步降低了预训练损失,并在大多数基准测试中提升了性能。
可以观察到,Engram-40B与基线之间的训练损失差距在训练后期仍在持续扩大,这表明扩大的内存容量在当前的Token预算内尚未完全饱和。
通过将局部依赖建模的任务卸载给静态查找,Engram架构保留了宝贵的注意力容量来管理全局上下文。
通过长上下文扩展训练,作者证明了Engram在长程检索和推理任务上带来了显著的提升。
1. 超越注意力机制的长上下文能力
虽然注意力机制和位置编码提供了处理上下文的结构基础,但结果表明,长上下文性能并非仅由架构先验决定。
轨迹可见,长上下文性能与基座模型的通用建模能力本质上是挂钩的。
因此,严格的架构比较必须通过对齐基座模型的Loss来控制这一干扰变量,而不仅仅是简单地对齐训练步数。
2. 受控设定下的架构优越性
在上述原则的指导下,作者将Engram与MoE 基线进行了对比。当控制了基座能力后,Engram模块的效率增益就变得非常明显:
等Loss设定(46k vs. 基线):当对比预训练Loss对齐的Engram-27B(46k)和完全训练的MoE-27B(50k)时,Engram 展现出了显著的增益。
等FLOPs设定(50k vs. 基线):在标准的等计算预算下,Engram-27B(50k)进一步拉大了这一差距,确立了全面的最佳性能。
极端设定(≈82%计算量):即便是提前停止训练的Engram-27B(41k),在面对完全训练的MoE-27B(50k)时依然极具竞争力。这凸显了Engram架构内在的优越性。
DeepSeek最新论文,打开了稀疏化的第二条路,是一条非常具有启发性的路线:
稀疏化模型进入了「计算+记忆」双轴时代。
MoE继续负责动态计算与推理
Engram负责存储与检索静态知识与局部模式
如上所示的U型缩放定律证明了,稀疏预算全部给MoE并不是全局最优,留出一部分给Engram整体性能更强。
1. 稀疏化目标变得更丰富了
条件计算解决了FLOPs问题,条件记忆解决了容量与模式检索问题,两者可以互补。
2. Engram收益带有结构性
它让LLM知识能力暴涨的同时,也间接提升了推理、数学、代码的性能,因为Transformer主干的深度和注意力计算变得更有价值。
3. 确定性查表,很适合系统优化
模型预取和卸载能力强大,为「更大参数、同等吞吐」提供了一条可行的工程路线。
如今,全网都在猜测,春节档的V4有很大概率会将Engram融入主干架构。
回看此前DeepSeek路线:
DeepSeek V2曾引入MLA,大幅提升了推理效率和KV缓存友好度;
DeepSeek V3持续优化MoE,实现无损负载均衡,训练更稳定,成本更低。
若是V4真的把Engram落地,那将不仅是参数规模的提升,更是架构范式的又一次跃迁。
再加上,此前爆料称,V4代码实力可能赶超Claude、ChatGPT系列。
今年的春节大礼,真是让人期待。
Xin Cheng目前在北京大学攻读博士学位,主攻自然语言处理方向,研究重点是大语言模型和检索增强生成。
作为一名学术新秀,他在圈内已取得不少成绩,尤其是在NeurIPS、ACL和EMNLP这些顶级会议上,发表了多篇一作论文。
参考资料:HYZ
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
https://x.com/karminski3/status/2010858438814023740
https://x.com/LearnWithScribe/status/2010783721410981930?s=20
本文由主机测评网于2026-03-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260331982.html