当前位置:首页 > 科技资讯 > 正文

大模型自我进化:SEAL框架实现自主更新

大模型迈向自我进化新时代!

MIT团队解锁新技能,通过强化学习框架让模型生成微调数据和自我更新指令,实现权重更新,无需人工插手。

模型能自动进行梯度更新,自主学习新知识或适应新任务,令人瞩目。

大模型自我进化:SEAL框架实现自主更新 SEAL 大模型 自我更新 强化学习 第1张

此框架名为SEAL(Self-Adapting LLMs),是内外两层嵌套的学习机制。

根据模型在任务上的表现计算奖励,优化自我更新指令的生成策略。

SEAL首次在权重层面赋予大模型自我驱动的更新能力,摆脱依赖外部监督数据的局限。

模型自动学习知识更新策略

SEAL在论文中通过两个实验验证其效果,分别是知识注入小样本学习

这两类任务分别对应模型进化的两种基本情境——记住新知识,以及快速适应新任务。

知识注入

实验中,研究者使用Qwen2.5-7B模型和SQuAD数据集的段落及问题。

每轮训练开始,模型接收新段落作为输入,但不会看到答案。

模型根据输入生成训练数据,使用LoRA进行微调,仅基于生成的数据,不包括原始段落或问题。

大模型自我进化:SEAL框架实现自主更新 SEAL 大模型 自我更新 强化学习 第2张

实验对比了多种方案,结果显示SEAL微调后准确率提升至47.0%,优于使用原文或非优化生成数据,甚至超越GPT-4.1的高质量提示数据。

小样本学习

小样本学习中,研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI数据集的任务子集。

SEAL接收示例后,生成训练配置并执行LoRA微调,随后进行预测。

大模型自我进化:SEAL框架实现自主更新 SEAL 大模型 自我更新 强化学习 第3张

结果显示,SEAL训练的策略使任务成功率达72.5%,远高于固定few-shot提示的0%,也优于随机采样策略的20%。

双循环系统自动生成训练指令

SEAL通过读取新信息、重写并梯度更新,实现自主学习。

系统由强化学习驱动的外部循环和参数更新的内部循环构成。

大模型自我进化:SEAL框架实现自主更新 SEAL 大模型 自我更新 强化学习 第4张

外层模型中,面对新输入上下文,生成self-edit指令描述如何更新自己。

内层执行微调,构造合成训练数据并执行权重更新。

评估新模型效果后,使用ReSTEM方法优化策略。

大模型自我进化:SEAL框架实现自主更新 SEAL 大模型 自我更新 强化学习 第5张

ReSTEM采用行为克隆+过滤采样方式,仅保留带来性能提升的self-edit。

通过反复迭代,模型越来越擅长生成有效self-edit。

SEAL实现了“学会如何让自己学得更好”,不仅完成任务,还能设计训练方式、构造数据,并优化自学习策略。

论文地址

项目主页