当前位置：首页 > 科技资讯 > 正文

Memory Decoder：解锁语言模型领域自适应的新范式

主机测评网
科技资讯
2026-04-24
197

Memory Decoder：解锁语言模型领域自适应的新范式 Decoder 领域自适应语言模型跨模型适应第1张

目前，大语言模型（LLM）在医疗、金融、法律等专业领域的应用，常因缺乏深度知识而表现不佳，如何在不同特定领域中让 LLM 发挥最佳性能，仍然是一个重大挑战。

现有的主流解决方案包括领域自适应预训练（DAPT）和检索增强生成（RAG）。然而，DAPT 需要进行耗时的全参数训练，且容易出现灾难性遗忘，难以让多个模型在同一领域中高效适配；而 RAG 也因昂贵的 kNN 搜索和更长的上下文，导致推理延迟大大增加。

由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾，开发既能跨模型适应，又能在部署时保持计算效率的解决方案，仍是一个空白。

为此，来自上海交通大学和上海AI Lab 的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”（Memory Decoder），无需修改原模型参数，即可适配不同尺寸模型，实现 LLM 的高效领域适应。

Memory Decoder：解锁语言模型领域自适应的新范式 Decoder 领域自适应语言模型跨模型适应第2张

论文链接：https://arxiv.org/abs/2508.09874v1

Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后，单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中，而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署，显著降低了部署成本。

实验结果表明，Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域，困惑度平均降低 6.17%。

架构

在预训练阶段，Memory Decoder 通过分布对齐损失函数，学习如何将其输出分布与非参数检索器生成的分布进行对齐。

在推理阶段，Memory Decoder 与基础语言模型并行处理输入数据，通过插值其分布生成领域增强型预测结果，且无需额外的检索开销。

Memory Decoder：解锁语言模型领域自适应的新范式 Decoder 领域自适应语言模型跨模型适应第3张

图｜Memory Decoder 架构概览，在预训练阶段学习模仿非参数检索分布，在推理阶段无缝集成任何兼容的语言模型，从而消除数据存储维护和 kNN 搜索带来的计算开销。

与传统基于单标签目标的语言建模方法不同，kNN 分布通过捕捉领域内合理延续的多样性，提供更丰富的监督信号。大量实验验证，混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数，该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。

Memory Decoder：解锁语言模型领域自适应的新范式 Decoder 领域自适应语言模型跨模型适应第4张

图｜跨领域适应方法的推理延迟比较

经过预训练的 Memory Decoder 能够通过简单的插值操作，将任何语言模型与兼容的 tokenizer 适配到目标领域。

相比其他领域自适应技术，Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播，在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊，而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计，使其在对性能和效率都至关重要的生产环境中具有独特价值。

性能评估

研究团队评估了 Memory Decoder 在 6 种互补场景下的性能：