大型语言模型现已突破自我更新的技术壁垒!
麻省理工学院的研究团队提出了一种名为SEAL的新型强化学习框架,该框架使模型能够生成微调数据并自主创作更新指令,从而实现模型权重的自动化更新。
无需人类干预,模型即可自动执行梯度更新,独立学习新知识或适应新任务。
SEAL(Self-Adapting LLMs)框架采用内外双层嵌套的学习机制。
在此机制下,系统根据更新后模型在任务中的表现计算奖励,进而优化自我更新指令的生成策略。
SEAL首次在权重层面上赋予大模型自我驱动的更新能力,突破了完全依赖外部监督数据的限制。
SEAL在研究中通过两大实验任务验证其效能:知识注入(knowledge incorporation)与小样本学习(few-shot learning)。
这两类任务对应模型进化中的核心场景——吸收新知识以及快速适应新任务。
在知识注入实验中,团队采用Qwen2.5-7B模型及SQuAD数据集的段落与问题。
每轮训练中,模型接收新段落作为输入上下文,但未获知对应答案。
模型首先生成训练数据,随后使用LoRA进行轻量微调,该过程仅基于生成数据,不含原始段落或问题。
微调后,模型在下游任务中评估,需在没有原始段落输入的情况下回答相关提问。
实验比较了多种方案:
单段落测试中,Qwen原始模型准确率为32.7%,使用原文微调后升至33.5%;加入GPT-4.1合成数据后达46.3%;而SEAL微调后准确率进一步提升至47.0%。
这表明SEAL不仅优于原文或非优化生成数据,甚至超越了GPT-4.1生成的高质量提示数据,展现出卓越的知识整合能力。
此外,研究还测试了更长段落,包括200段落及完整SQuAD验证集(2067段落),SEAL在200段落设置中取得58.2%准确率,显著高于未优化版本,证明SEAL可扩展至大规模数据整理任务。
在小样本学习实验中,团队使用LLaMA-3.2-1B-Instruct模型及ARC-AGI数据集的筛选任务子集。
ARC任务通常包含多个示例的图形变换(文本形式)输入输出对,旨在从中学习规律并对新输入进行预测。
SEAL接收这些示例后,不直接推理,而是生成训练配置并执行LoRA微调,随后在测试输入上预测。
结果显示,SEAL训练的策略使任务成功率达到72.5%,远高于固定小样本提示的0%,也明显优于随机采样策略的20%。
虽未达到人工最优策略(Oracle TTT)的100%,但作为模型自主探索的学习路径,此成功率充分证实SEAL具备强大任务适应能力。
那么,SEAL框架如何运作呢?
SEAL的工作流程简言之:读取新信息,以自身语言重述,并进行梯度更新,实现自主学习。
结构上,SEAL系统由两部分组成——强化学习驱动的外部循环与执行参数更新的内部循环。
外层中,模型面对新输入上下文(如文本或任务示例),首先生成一条自我编辑指令。
这是一段自然语言“微调指令”,描述模型如何基于当前输入更新自身,包括信息提取、训练样本生成、训练参数(如学习率、轮数、损失策略)等。
此行为本质是模型设计自身训练流程。
随后进入内层,模型按自我编辑指令执行微调。
此步会构建合成训练数据,可能含推理句、问答对、重述信息或任务样本变换,并以指定优化策略更新权重。
更新后的新模型立即用于解决相应任务(如回答问题或完成预测),评估效果并获得表现评分。
此评分(奖励)反映自我编辑对性能的提升效果,进而用于优化下一步自我编辑策略。
为实现策略优化,SEAL采用一种非传统强化学习方法,称为ReSTEM(Reinforcement Learning with Sampled Trajectories and Expert Mimicry)。
其核心思路并非直接对奖励梯度回传,而是采用行为克隆加过滤采样的方式。
具体而言,在每个上下文中,模型生成多个自我编辑候选,每个候选被应用并执行微调,得到新模型。
随后评估新模型在任务上的表现,仅保留带来性能提升的自我编辑。
接着以这批“有效”自我编辑作为训练数据,对生成策略进行有监督微调(行为克隆),并迭代此过程,使模型越来越倾向生成有效自我编辑。
ReSTEM本质是期望最大化过程,相较于PPO等策略梯度方法,ReSTEM结构更简单、训练更稳定,也更适合大模型生成行为学习任务。
通过此机制,SEAL实现了“学会如何让自己学得更好”。
模型不仅能基于现有数据完成任务,更能主动设计训练方式、构建训练数据,并通过反馈持续优化“自学习”策略。最终展现为具备自我编辑与持续进化能力的语言模型架构。
论文地址:https://arxiv.org/abs/2506.10943
项目主页:https://jyopari.github.io/posts/seal
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115967.html