目前,大语言模型(LLM)在医疗、金融、法律等专业领域的应用,常因缺乏深度知识而表现不佳,如何在不同特定领域中让 LLM 发挥最佳性能,仍然是一个重大挑战。
现有的主流解决方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT 需要进行耗时的全参数训练,且容易出现灾难性遗忘,难以让多个模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,导致推理延迟大大增加。
由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍是一个空白。
为此,来自上海交通大学和上海AI Lab 的研究团队提出了一个“即插即用”的预训练记忆模块——“记忆解码器”(Memory Decoder),无需修改原模型参数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。
论文链接:https://arxiv.org/abs/2508.09874v1
Memory Decoder 的核心创新在于其“即插即用”的特性。经过训练后,单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进行模型特定调整或额外训练。这种设计实现了跨不同模型架构的即时部署,显著降低了部署成本。
实验结果表明,Memory Decoder 能够有效地将各种 Qwen 和 Llama 模型适应于生物医学、金融和法律专业领域,困惑度平均降低 6.17%。
在预训练阶段,Memory Decoder 通过分布对齐损失函数,学习如何将其输出分布与非参数检索器生成的分布进行对齐。
在推理阶段,Memory Decoder 与基础语言模型并行处理输入数据,通过插值其分布生成领域增强型预测结果,且无需额外的检索开销。
图|Memory Decoder 架构概览,在预训练阶段学习模仿非参数检索分布,在推理阶段无缝集成任何兼容的语言模型,从而消除数据存储维护和 kNN 搜索带来的计算开销。
与传统基于单标签目标的语言建模方法不同,kNN 分布通过捕捉领域内合理延续的多样性,提供更丰富的监督信号。大量实验验证,混合目标函数能获得最佳性能。这一研究方法的核心在于引入分布对齐损失函数,该函数通过最小化 Memory Decoder 输出分布与缓存 kNN 分布之间的 KL 散度来实现。
图|跨领域适应方法的推理延迟比较
经过预训练的 Memory Decoder 能够通过简单的插值操作,将任何语言模型与兼容的 tokenizer 适配到目标领域。
相比其他领域自适应技术,Memory Decoder 仅需对相对较小的 transformer 解码器进行单次前向传播,在推理效率上实现了显著提升。Memory Decoder 与 LLM 之间的进程通信开销可通过延长推理时间来分摊,而 kNN 搜索则会随数据量线性增长。这种计算优势结合 Memory Decoder 的“模型无关”设计,使其在对性能和效率都至关重要的生产环境中具有独特价值。
性能评估
研究团队评估了 Memory Decoder 在 6 种互补场景下的性能:
1.WikiText-103 中的语言建模
表|GPT2 模型在 WikiText-103 数据集上的域适应方法的困惑度对比
上表展示了 Memory Decoder 在所有 GPT2 模型尺寸上的有效性。仅需 1.24 亿参数的单个 Memory Decoder,就能显著提升整个 GPT2 系列模型的性能,展现了其即插即用的优势——无论基础模型规模如何。
2.下游性能
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440165.html