自《经验的时代》一文问世,揭示了大型语言模型(LLM)在持续学习与元学习上的不足后,整个LLM界纷纷寻求突破这一发展瓶颈的出路。
尽管业界曾尝试构建“自进化模型”,以期实现模型自我进化的目标,但直至近期,这些路径才逐渐变得清晰。
主流模型持续学习的能力,与模型的“记忆”深度和可塑性息息相关。唯有稳定更新或增加新记忆,模型才能持续学习。
因此,改变、添加记忆的方法,就是持续学习的路径。
当前,大语言模型界中,改变模型记忆的方法大致可归纳为三条路径。
第一条路径是调整“上下文”(Context),即修改模型的“工作记忆”。
这种方法被称为“上下文学习”(In-Context Learning, ICL)。通过提供新信息、示例或指示,模型能在对话中“学会”解决问题。
安德烈·卡帕西推动的“系统提示学习”概念,便是此路径的最新进展。
其核心在于,模型通过“语言层面的总结与归纳”,反思成功与失败,更新系统提示词,提升解决同类问题的能力。
此方法通过影响模型底层行为指令,解决了ICL的表层问题,让学习成果得以沉淀。
第二条路径是引入“外部记忆库”,即RAG。
这相当于给模型配备一个数据库,在需要时进行对比和检索。持续学习则体现在模型有能力更改、积累和维护这个外部记忆库。
谷歌DeepMind的“Reasoningbank”研究,便是一个打造“高级大脑记忆库”的尝试。
这两大路径,都转向了对传统持续学习模式的“元学习”。
Anthropic推出的Claude Skill功能,便是结合这两层方法,让Agent通过总结经验来“学习”新技能的尝试。
然而,第三条路径——从“参数层面”做持续学习,进展缓慢。
当前能改变模型参数的方法,要么训练开销巨大、流程复杂(如强化学习),要么极不稳定(如LoRA)。
但Meta AI的新论文《通过稀疏内存微调实现持续学习》,可能为这一路径带来根本性改变。
SFT始终面临根本性矛盾:虽是直接手段,却因“灾难性遗忘”和稳定性问题成为瓶颈。
以LoRA为例,其因成本低、仅需调整少量参数而被视为最有前景的方法。但实际应用中,仅几千步微调就可能严重损害原有能力。
Meta的新论文提出稀疏内存微调方法,核心在于:精确更新与“新知识”相关而与“旧知识”无关的参数。
Meta采用内存层模型(Memory Layer Models),将标准Transformer模型的前馈网络层替换为内存层。
引入TF-IDF算法,找到与新知关联性最强且几乎不涉日常知识的参数。
在反向传播时,仅更新TF-IDF得分最高的Top-t个参数。
这种新方法在防止遗忘上表现卓越,几乎治愈了SFT的“阿喀琉斯之踵”。
上下文学习与RAG虽转向元学习,但存在根本局限。模型需从观察中学习而非仅接受灌输。
...
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543394.html