当前位置:首页 > 科技资讯 > 正文

MIT SEAL框架:大模型实现自我驱动更新与自适应学习

大型语言模型现已突破自我更新的技术壁垒!

麻省理工学院的研究团队提出了一种名为SEAL的新型强化学习框架,该框架使模型能够生成微调数据并自主创作更新指令,从而实现模型权重的自动化更新。

无需人类干预,模型即可自动执行梯度更新,独立学习新知识或适应新任务。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第1张

SEAL(Self-Adapting LLMs)框架采用内外双层嵌套的学习机制。

在此机制下,系统根据更新后模型在任务中的表现计算奖励,进而优化自我更新指令的生成策略。

SEAL首次在权重层面上赋予大模型自我驱动的更新能力,突破了完全依赖外部监督数据的限制。

模型自动化学习知识更新策略

SEAL在研究中通过两大实验任务验证其效能:知识注入(knowledge incorporation)与小样本学习(few-shot learning)。

这两类任务对应模型进化中的核心场景——吸收新知识以及快速适应新任务。

知识注入

在知识注入实验中,团队采用Qwen2.5-7B模型及SQuAD数据集的段落与问题。

每轮训练中,模型接收新段落作为输入上下文,但未获知对应答案。

模型首先生成训练数据,随后使用LoRA进行轻量微调,该过程仅基于生成数据,不含原始段落或问题。

微调后,模型在下游任务中评估,需在没有原始段落输入的情况下回答相关提问。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第2张

实验比较了多种方案:

  • 仅用原始段落微调;
  • 借助GPT-4.1生成的隐含句子辅助训练;
  • 采用SEAL自身生成的数据微调。

单段落测试中,Qwen原始模型准确率为32.7%,使用原文微调后升至33.5%;加入GPT-4.1合成数据后达46.3%;而SEAL微调后准确率进一步提升至47.0%。

这表明SEAL不仅优于原文或非优化生成数据,甚至超越了GPT-4.1生成的高质量提示数据,展现出卓越的知识整合能力。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第3张

此外,研究还测试了更长段落,包括200段落及完整SQuAD验证集(2067段落),SEAL在200段落设置中取得58.2%准确率,显著高于未优化版本,证明SEAL可扩展至大规模数据整理任务。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第4张

小样本学习

在小样本学习实验中,团队使用LLaMA-3.2-1B-Instruct模型及ARC-AGI数据集的筛选任务子集。

ARC任务通常包含多个示例的图形变换(文本形式)输入输出对,旨在从中学习规律并对新输入进行预测。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第5张

SEAL接收这些示例后,不直接推理,而是生成训练配置并执行LoRA微调,随后在测试输入上预测。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第6张

结果显示,SEAL训练的策略使任务成功率达到72.5%,远高于固定小样本提示的0%,也明显优于随机采样策略的20%。

虽未达到人工最优策略(Oracle TTT)的100%,但作为模型自主探索的学习路径,此成功率充分证实SEAL具备强大任务适应能力。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第7张

那么,SEAL框架如何运作呢?

双循环系统自动生成训练指令

SEAL的工作流程简言之:读取新信息,以自身语言重述,并进行梯度更新,实现自主学习。

结构上,SEAL系统由两部分组成——强化学习驱动的外部循环与执行参数更新的内部循环

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第8张

外层中,模型面对新输入上下文(如文本或任务示例),首先生成一条自我编辑指令。

这是一段自然语言“微调指令”,描述模型如何基于当前输入更新自身,包括信息提取、训练样本生成、训练参数(如学习率、轮数、损失策略)等。

此行为本质是模型设计自身训练流程。

随后进入内层,模型按自我编辑指令执行微调。

此步会构建合成训练数据,可能含推理句、问答对、重述信息或任务样本变换,并以指定优化策略更新权重。

更新后的新模型立即用于解决相应任务(如回答问题或完成预测),评估效果并获得表现评分。

此评分(奖励)反映自我编辑对性能的提升效果,进而用于优化下一步自我编辑策略。

为实现策略优化,SEAL采用一种非传统强化学习方法,称为ReSTEM(Reinforcement Learning with Sampled Trajectories and Expert Mimicry)。

MIT SEAL框架:大模型实现自我驱动更新与自适应学习 自我更新大模型  强化学习框架 知识注入 小样本学习 第9张

其核心思路并非直接对奖励梯度回传,而是采用行为克隆加过滤采样的方式。

具体而言,在每个上下文中,模型生成多个自我编辑候选,每个候选被应用并执行微调,得到新模型。

随后评估新模型在任务上的表现,仅保留带来性能提升的自我编辑。

接着以这批“有效”自我编辑作为训练数据,对生成策略进行有监督微调(行为克隆),并迭代此过程,使模型越来越倾向生成有效自我编辑。

ReSTEM本质是期望最大化过程,相较于PPO等策略梯度方法,ReSTEM结构更简单、训练更稳定,也更适合大模型生成行为学习任务。

通过此机制,SEAL实现了“学会如何让自己学得更好”。

模型不仅能基于现有数据完成任务,更能主动设计训练方式、构建训练数据,并通过反馈持续优化“自学习”策略。最终展现为具备自我编辑与持续进化能力的语言模型架构。

论文地址:https://arxiv.org/abs/2506.10943

项目主页:https://jyopari.github.io/posts/seal