当前位置：首页 > 科技资讯 > 正文

Meta AI稀疏内存微调技术引领LLM持续学习新突破

主机测评网
科技资讯
2026-01-14
205

自理查德·萨顿（Richard Sutton）在《经验的时代》一文中指出大语言模型（LLM）缺乏真正的持续学习与元学习能力后，整个LLM领域近期频繁寻求突破这一瓶颈。

过去，业界曾多次尝试构建“自进化模型”，这些尝试在逻辑上与持续学习的目标一致，即模型应能逐步自我增强。但直到最近，实现这一目标的几条路径才逐渐清晰。

01 持续学习的三条路径

路径变得明朗，是因为主流模型持续学习的能力，本质上与模型的“记忆”深度和可塑性紧密相关。只有能够稳定地更新或增加新记忆，模型才有可能持续学到新内容。

因此，更改或添加记忆的方法有多少种，持续学习就有多少种主要路径。

放眼当前的大语言模型领域，能够改变模型记忆的方法，大致可以归纳为三条路径。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第1张

第一条路径，是改变“上下文”（Context），即修改模型的“工作记忆”。

它对应的学习方法被称为“上下文学习”（In-Context Learning, ICL）。通过在提示词中提供新信息、示例或指示，模型便能在当前对话中“学会”解决特定问题。

这条路径的最新进展，是近期由安德烈·卡帕西（Andrej Karpathy）强力推动的“系统提示学习”（System Prompt Learning）概念。

其核心思想是，模型通过对自身解决问题的行为进行“语言层面的总结与反思”，分析成功与失败，然后不断更新系统提示词，从而提升未来解决同类问题的能力。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第2张

这种方法通过影响模型底层的行为指令，在一定程度上缓解了ICL常被批评的浮于表面问题，让学习成果得以积累。

第二条路径，是引入“外部记忆库”，即RAG。

这是为模型配备一个外置数据库，让它在需要时进行检索和对比。而持续学习则体现在模型自身有能力去更新、积累和维护这个外部记忆库。

这方面的最新探索，当属谷歌DeepMind的“Reasoningbank”研究。它不再是给AI智能体一个零散的“事实记忆库”，而是构建一个“高级大脑记忆库”。这个库里存储的不是“10+10=20”这样的事实，而是模型从经验中总结的“方法论”和“避坑指南”。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第3张

这两条路径，无论是反思自身prompt还是维护外部方法论，都代表了对传统持续学习模式的一种“元学习”转向。

在近期的产品化探索中，Anthropic推出的Claude Skill功能，就是结合了这两层（尤其是第一层）方法，让Agent通过总结经验来“学习”新技能的尝试。

然而，第三条路径，即从“参数层面”进行持续学习，这个最根本、最核心的方法，却一直进展缓慢。

因为目前能够直接改变模型参数的方法，要么像强化学习（RL）一样，训练开销巨大、流程复杂，难以在模型部署后频繁使用；要么就像LoRA这种轻量化监督微调（SFT）一样，极不稳定。

这使得参数更新这条最根本的路径，长期处于停滞不前的状态。

但最新一篇来自Meta AI的论文《通过稀疏内存微调实现持续学习》（Continual Learning via Sparse Memory Finetuning），可能为这条沉寂已久的第三路径带来根本性变革。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第4张

02 治愈监督微调SFT的“阿喀琉斯之踵”

SFT（监督微调）始终面临一个根本矛盾：它是赋予模型专项能力的最直接手段，却因难以克服的“灾难性遗忘”和稳定性问题，成为模型能力提升的瓶颈。

灾难性遗忘具体指在更新参数时，模型会忘记原有知识。

以LoRA（注：Low-Rank Adaptation，低秩适应，是一种用于高效微调大型预训练模型的技术）为例，它因成本低、只需调整少量参数而被视为有前景的持续学习方法。但在实际应用中，可能仅几千步微调就能让模型学会新技能，同时严重损害其通用能力。

产生这一现象的根本原因在于，模型的参数是所有任务共享的。当为学习新知识而调整一组参数时，可能会破坏存储旧知识的同一组参数，导致遗忘和能力下降。

Meta的这篇新论文，旨在解决这一难题。

他们提出了一种叫稀疏内存微调（Sparse Memory Finetuning）的方法，核心思想是：如果我们能精确地只更新那些与“新知识”相关、而与“旧知识”无关的参数，就能避免干扰。

为实现这一目标，Meta AI设计了一套完整的技术闭环。

第一步：改造架构，专门加入方便更改的记忆层。

Meta采用了一种较新的特殊模型架构，即内存层模型（Memory Layer Models）。研究者将标准Transformer模型中的一些前馈网络（FFN）层替换为内存层。

内存层与标准FFN层的差异，类似于MoE与稠密模型的区别。当问题输入时，标准FFN层中所有参数都需参与计算。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第5张

而内存层则完全不同，它拥有100万个“微型专家”（即内存槽位/slots），每个专家存储极小粒度的知识。当问题输入时，模型生成查询（query），从所有参数中找出最相关的Top-k个专家（如k=32）。只有这32个专家被激活并提供信息。这种设计类似极端化的MoE，但它拥有百万级微型专家，而非传统MoE的8或16个大型专家。

研究者将一个22层标准Transformer模型中第12层的FFN层替换为内存层。

这时，整个模型数据流仍是线性的，token依次通过每一层，但到了内存层，计算方式从“稠密”变为“稀疏”。

之所以进行这种改造，是因为记忆层有大量内存插槽，提供比LoRA更细的“精细控制力”，这一百万个可独立寻址和修改的“知识抽屉”（内存插槽），可直接用于修改和新增知识。

无论过去的稠密模型还是MOE，都难以实现这一点。

第二步：精准定位，用TF-IDF找到“该更新的抽屉”。

有了可精细控制的架构，接下来问题：当新知识输入时，应更新哪些“抽屉”？

研究者发现，即使使用只需更新少量参数的内存层方法，如果简单更新所有相关参数，仍会引发灾难性遗忘。

所以关键问题是：如何精准筛选“既重要又安全”的参数？Meta引入了信息检索领域的经典算法：TF-IDF来处理。

这个算法中两个值分别是：

TF (词频):统计在当前“新知识”训练批次中，一百万个专家（内存槽位）里哪些被访问最频繁？专家被访问次数越多，意味着它与新知识关联性越强。

IDF (逆文档频率):统计在固定、代表通用知识的“背景语料库”（如预训练数据）中，哪些专家最不常用？

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第6张

因此，一个内存槽位的TF-IDF得分高，就意味着它对于新知识至关重要（高TF），同时几乎不负责通用日常知识（高IDF）。

通过这套算法，研究人员可在内存层找到最适合被更新的参数。

第三步：稀疏更新，只动“Top-t”个参数。

有了精准可控的参数和定位方法，更新过程便可像靶向药一样精准、克制。在反向传播更新参数时，模型冻结几乎所有参数，只允许梯度流向TF-IDF得分最高的Top-t个内存槽位，以更改其数据。

通过这种方式，模型用100万个槽位中的区区500个，就完成了新知识的“写入”。相较于内存层百万级总容量，以及传统SFT数千万的更新量，这个数字微乎其微。

效果上，SFT的“阿喀琉斯之踵”被基本治愈。

这套“架构改造 + 精准定位 + 稀疏更新”三步法，效果显著。在论文关键对比实验中，研究者让模型学习新事实（TriviaQA），然后测试它在原有任务（Natural Questions）上的表现，观察“遗忘”程度。

结果显示，这种稀疏内存微调新方法使原有任务分数仅下降11%，而LoRA会导致71%的暴跌，全量微调则暴跌89%。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第7张

这种新方法在学习能力上与LoRA和全量微调相当甚至更优，但在遗忘核心痛点上，表现出压倒性稳定性优势。它几乎完美治愈了SFT的“阿喀琉斯之踵”。

此外，这种方法展示巨大学习潜力。根据论文定性分析，存储1000个新事实约需占用500个内存插槽。这意味着拥有100万个内存插槽的内存层，有充足空间持续学习海量新知识。

在训练成本上，它每一步需更新的参数数量远少于LoRA，降低了优化器内存开销。

Meta AI稀疏内存微调技术引领LLM持续学习新突破持续学习稀疏内存微调灾难性遗忘监督微调第8张

这个数据有力证明，这种新方法在学习新知识的同时，表现出极少的遗忘。它几乎完美解决了SFT不稳定、易劣化的核心卡点，让“安全更新模型参数”从高风险奢望变为稳定可行的工程现实。

03 元学习的局限与SFT的优势

在第一部分，我们讨论了上下文学习和RAG的元学习转向：它们旨在让模型学会“如何学习”或“总结方法论”。

这是因为持续学习的真正实现，需要模型能自发从观察中学习，而非仅接受人工灌输。这样它才知道何时该学、学什么。

但这两种方法都存在根本局限，模型就像每次考试都需翻阅外部教科书（RAG）或复习笔记（System Prompt）的学生。很难认为这学生真正内化了知识。

许多相关研究也持怀疑态度，2025年9月一篇备受关注的论文《上下文学习是在学习吗？》（IS IN-CONTEXT LEARNING LEARNING?）通过探针实验发现，上下文学习确实是一种学习机制，但它倾向于过度关注示例分布中的统计特征，而非学习任务根本规律。这导致上下文学习泛化能力有限。

至于RAG，其本质也是一种上下文学习。只不过这种上下文存储在外部，需在使用时通过搜索转化为内部上下文。相当于从书中背诵。

这种浮于表面、死记硬背的特性，注定了非参数化学习路径（上下文和RAG）只能是权宜之计。

从根本上，我们仍希望“方法论”和“新知识”能真正影响模型参数，让它在内部找到规律，成为本能一部分。

因此，第三条路径（参数更新）才可能是更根本的解决方案。

过去，这条路之所以走不通，不是因为我们不想，而是因为SFT太不可控。灾难性遗忘像是守在这路上的猛虎。

而Meta AI的这篇论文，其最大意义在于提供了一种安全、稳定、可控的SFT方案。它通过内存层架构和TF-IDF稀疏更新的组合，成功绕开了灾难性遗忘。

这或许意味着，监督微调（SFT）的春天即将到来。

如果这条路径被成功打通，模型将不再是一个“毕业即巅峰”的静态工具，而是能像萨顿所期望的那样，成为一个在经验流中不断成长的智能体。

这个SFT不再尴尬、参数可安全更新的未来，才是“自进化模型”的真正起点。

性价比服务器免费vps

本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117562.html

Meta AI稀疏内存微调技术引领LLM持续学习新突破

01

持续学习的三条路径

02