人工智能巨头DeepSeek在春节前夕再次祭出重磅研究成果!
最新发布的学术论文揭示了一种名为“条件记忆”(Conditional Memory)的突破性架构,成功为原生Transformer补齐了长期缺失的知识检索与查找机制。
研究团队在结论中明确指出:条件记忆将被视为构建下一代高效稀疏模型不可或缺的底层建模原语。
此次研究依然由DeepSeek掌门人梁文锋领衔署名,并联合北京大学王选所的赵东岩、张辉帅团队共同完成。
论文详细阐述了条件记忆的全新范式,并提出了具体的落地实现方案——Engram模块。实验数据表明,搭载该模块的27B参数模型在性能上不仅完全碾压了同规模的纯MoE模型,更在逻辑推理能力上实现了质的跨越:
Engram能够将原本需要Transformer消耗6层注意力机制才能处理的简单常识任务,极简地压缩至1-2层完成。这意味着大模型可以将腾出来的宝贵计算资源,全身心地投入到更具挑战性的复杂推理任务中。
条件记忆的底层逻辑返璞归真:它摒弃了冗余的在线计算,回归到高效的查表模式,并巧妙融入了经典的N-gram方法。
通过为大模型配备一个超大规模的嵌入表,专门负责存储实体名称及短语。无论词表规模扩张到何种程度,信息检索始终保持O(1)的恒定速度。
核心挑战在于:在人工智能新纪元,DeepSeek如何规避传统N-gram面临的存储爆炸与歧义难题,并使其与现代Transformer架构无缝结合?
DeepSeek团队敏锐捕捉到,语言建模本质上由两类任务构成:一是需要动态逻辑解构的组合推理,二是针对静态事实的直接检索。
当前的Transformer架构由于缺乏原生的知识索引能力,在识别特定实体时,往往需要多层注意力与前馈网络反复“折腾”才能还原特征。
以“Diana, Princess of Wales”为例:
传统模型需经6层演化才能确认识别。在此过程中,前几层神经网络还在费力理解“威尔士的地理位置”或“头衔含义”等中间状态,最终才“顿悟”其指向戴安娜王妃。
这本质上是在用极其昂贵的实时计算去“复刻”一个本该存在的查找表。那些理应支撑更高阶思维的网络深度,在处理这类基础识别任务中被极大地朗费了。
Engram的逻辑异常清晰:既然N-gram能以极低成本捕获局部依赖,何不将其作为Transformer的增强插件?
在工程层面,团队在Transformer层间嵌入了Engram模块。每当输入一个token,都会触发哈希检索,将当前及其前驱token组成的N-gram直接映射到海量嵌入表中,实现瞬间取值。
针对哈希冲突与多义性,DeepSeek引入了上下文感知门控机制,将当前隐藏状态作为Query,配合检索到的记忆进行校验。若记忆与语境不符,门控值将归零以过滤噪声。
在热力图演示中,深色区域代表Engram判定该片段为“静态模式”,选择直接调用记忆库;浅色区域则代表文本具动态灵活性,交由注意力机制处理。
例如,单独看“张”字仅是姓氏,而当“张仲景”完整出现时,模型会立即锁定这一固定历史人物实体。
为了解决传统N-gram的语义冗余与存储膨胀,DeepSeek实施了两项关键改进:
1. **Tokenizer压缩**:通过聚类算法将语义相近(如大小写、变体词)的token归类,使128k词表规模缩减23%,大幅提升查找精度。
2. **多重哈希映射**:采用多个哈希函数将不同阶数的N-gram映射至固定大小的质数嵌入表,既保证了海量数据的存储可行性,又通过并行哈希头显著降低了检索冲突。
论文对“稀疏参数分配”进行了深度复盘。在总参数量和计算预算恒定的前提下,研究团队在MoE专家与Engram记忆之间寻找平衡点。
实验数据绘制出一条完美的U型曲线:
结果显示,纯MoE架构并非最优。当20%至25%的稀疏预算分配给Engram时,模型的验证集Loss降至最低。
在10B规模测试中,最优配置相较于纯MoE基线显著提升了收敛质量。这一稳定规律证明:单纯靠计算无法高效模拟记忆,而记忆也无法完全取代动态计算。
基于U型理论,DeepSeek构建了27B和40B规模的实验模型。在激活参数仅为3.8B的严苛条件下,Engram展现了惊人的素质。
与MoE-27B基线相比,Engram-27B不仅在MMLU等常识任务中稳步提升,更在BBH推理(+5.0分)、代码能力(HumanEval +3.0分)以及数学竞赛(MATH +2.4分)等硬核领域实现了超预期跨越。
通过LogitLens深度分析发现,Engram实际上起到了“网络加深”的作用。其第5层的语义表征深度已接近基线模型的第12层,节省下来的层级深度为处理长上下文和复杂逻辑提供了空间。
在长文本RULER测试中,Multi-Query NIAH指标从84.2大幅跃升至97.0。这意味着局部细节被成功“外包”给Engram处理后,注意力机制能够更加专注于宏观文本结构的逻辑关联。
针对硬件瓶颈,DeepSeek采用了存储与计算解耦的工程策略。在大模型推理时,将庞大的嵌入表卸载(Offload)至CPU内存,并利用PCIe异步预取技术。
得益于Engram索引的确定性,系统可以在GPU计算前一层时提前读取下一层所需的记忆。实测显示,即便搭载1000亿参数的Engram表,H800显卡的吞吐性能损耗也控制在3%以内,几乎可以忽略不计。
DeepSeek在论文总结中宣布,这种“硬件感知”的设计理念将确立条件记忆在未来稀疏模型中的基石地位。随着DeepSeek下一代大模型发布在即,这种全新的“计算+记忆”范式或将刷新大模型能力的上限。
论文详细地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260332004.html