当前位置:首页 > 科技资讯 > 正文

突破自进化瓶颈:Meta AI引领参数更新新纪元

自《经验的时代》一文问世,揭示了大型语言模型(LLM)在持续学习与元学习上的不足后,整个LLM界纷纷寻求突破这一发展瓶颈的出路。

尽管业界曾尝试构建“自进化模型”,以期实现模型自我进化的目标,但直至近期,这些路径才逐渐变得清晰。

01

持续学习的三大路径

主流模型持续学习的能力,与模型的“记忆”深度和可塑性息息相关。唯有稳定更新或增加新记忆,模型才能持续学习。

因此,改变、添加记忆的方法,就是持续学习的路径。

当前,大语言模型界中,改变模型记忆的方法大致可归纳为三条路径。

突破自进化瓶颈:Meta AI引领参数更新新纪元 持续学习 元学习 监督微调 稀疏内存微调 第1张

第一条路径是调整“上下文”(Context),即修改模型的“工作记忆”。

这种方法被称为“上下文学习”(In-Context Learning, ICL)。通过提供新信息、示例或指示,模型能在对话中“学会”解决问题。

安德烈·卡帕西推动的“系统提示学习”概念,便是此路径的最新进展。

其核心在于,模型通过“语言层面的总结与归纳”,反思成功与失败,更新系统提示词,提升解决同类问题的能力。

突破自进化瓶颈:Meta AI引领参数更新新纪元 持续学习 元学习 监督微调 稀疏内存微调 第2张

此方法通过影响模型底层行为指令,解决了ICL的表层问题,让学习成果得以沉淀。

第二条路径是引入“外部记忆库”,即RAG。

这相当于给模型配备一个数据库,在需要时进行对比和检索。持续学习则体现在模型有能力更改、积累和维护这个外部记忆库。

谷歌DeepMind的“Reasoningbank”研究,便是一个打造“高级大脑记忆库”的尝试。

突破自进化瓶颈:Meta AI引领参数更新新纪元 持续学习 元学习 监督微调 稀疏内存微调 第3张

这两大路径,都转向了对传统持续学习模式的“元学习”。

Anthropic推出的Claude Skill功能,便是结合这两层方法,让Agent通过总结经验来“学习”新技能的尝试。

然而,第三条路径——从“参数层面”做持续学习,进展缓慢。

当前能改变模型参数的方法,要么训练开销巨大、流程复杂(如强化学习),要么极不稳定(如LoRA)。

但Meta AI的新论文《通过稀疏内存微调实现持续学习》,可能为这一路径带来根本性改变。

突破自进化瓶颈:Meta AI引领参数更新新纪元 持续学习 元学习 监督微调 稀疏内存微调 第4张

02

治愈监督微调SFT的“阿喀琉斯之踵”

SFT始终面临根本性矛盾:虽是直接手段,却因“灾难性遗忘”和稳定性问题成为瓶颈。

以LoRA为例,其因成本低、仅需调整少量参数而被视为最有前景的方法。但实际应用中,仅几千步微调就可能严重损害原有能力。

Meta的新论文提出稀疏内存微调方法,核心在于:精确更新与“新知识”相关而与“旧知识”无关的参数。

第一步:改造架构,加入便于更改的记忆层。

Meta采用内存层模型(Memory Layer Models),将标准Transformer模型的前馈网络层替换为内存层。

突破自进化瓶颈:Meta AI引领参数更新新纪元 持续学习 元学习 监督微调 稀疏内存微调 第5张

第二步:精准定位,用TF-IDF找到“该更新的抽屉”。

引入TF-IDF算法,找到与新知关联性最强且几乎不涉日常知识的参数。

第三步:稀疏更新,仅动“Top-t”个参数。

在反向传播时,仅更新TF-IDF得分最高的Top-t个参数。

这种新方法在防止遗忘上表现卓越,几乎治愈了SFT的“阿喀琉斯之踵”。

03

元学习的局限与SFT的优势

上下文学习与RAG虽转向元学习,但存在根本局限。模型需从观察中学习而非仅接受灌输。

...