当前位置:首页 > 科技资讯 > 正文

Memory Decoder:解锁语言模型领域自适应的新范式

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第1张

目前,大语言模型(LLM)在医疗、金融、法律等专业领域的应用,常因缺乏深度知识而表现不佳,如何在不同特定领域中让 LLM 发挥最佳性能,仍然是一个重大挑战。

现有的主流解决方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT 需要进行耗时的全参数训练,且容易出现灾难性遗忘,难以让多个模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,导致推理延迟大大增加。

由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍是一个空白。

为此,来自上海交通大学和上海AI Lab 的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”(Memory Decoder),无需修改原模型参数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第2张

论文链接:https://arxiv.org/abs/2508.09874v1

Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后,单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署,显著降低了部署成本。

实验结果表明,Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域,困惑度平均降低 6.17%。

架构

在预训练阶段,Memory Decoder 通过分布对齐损失函数,学习如何将其输出分布与非参数检索器生成的分布进行对齐。

在推理阶段,Memory Decoder 与基础语言模型并行处理输入数据,通过插值其分布生成领域增强型预测结果,且无需额外的检索开销。

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第3张

图|Memory Decoder 架构概览,在预训练阶段学习模仿非参数检索分布,在推理阶段无缝集成任何兼容的语言模型,从而消除数据存储维护和 kNN 搜索带来的计算开销。

与传统基于单标签目标的语言建模方法不同,kNN 分布通过捕捉领域内合理延续的多样性,提供更丰富的监督信号。大量实验验证,混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数,该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第4张

图|跨领域适应方法的推理延迟比较

经过预训练的 Memory Decoder 能够通过简单的插值操作,将任何语言模型与兼容的 tokenizer 适配到目标领域。

相比其他领域自适应技术,Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播,在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊,而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计,使其在对性能和效率都至关重要的生产环境中具有独特价值。

性能评估

研究团队评估了 Memory Decoder 在 6 种互补场景下的性能:

  • 在 WikiText-103 数据集上的语言建模,验证其在不同规模 GPT-2 模型中的适用性;
  • 下游任务测试,验证领域适应过程中通用能力的保留效果;
  • 跨模型适应,展示单个 Memory Decoder 在 Qwen 模型(0.5B-72B)带来的性能提升;
  • 跨词汇适应,证明不同 tokenizer 间的高效迁移能力;
  • 知识密集型问答任务,证明 Memory Decoder 在保持推理能力的同时也可以增强事实回忆功能——这是传统检索方法的关键局限;
  • 针对特定领域的下游任务,验证其在 13 项真实场景基准测试中对上下文学习能力的保持。

1.WikiText-103 中的语言建模

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第5张

表|GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比

上表展示了 Memory Decoder 在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder,就能显著提升整个 GPT2 系列模型的性能,展现了其即插即用的优势——无论基础模型规模如何。

2.下游性能

Memory Decoder:解锁语言模型领域自适应的新范式 Decoder 领域自适应 语言模型 跨模型适应 第6张