当前位置：首页 > 科技资讯 > 正文

MIT SEAL框架：大模型实现自我驱动更新与自适应学习

主机测评网
科技资讯
2026-01-08
987

大型语言模型现已突破自我更新的技术壁垒！

麻省理工学院的研究团队提出了一种名为SEAL的新型强化学习框架，该框架使模型能够生成微调数据并自主创作更新指令，从而实现模型权重的自动化更新。

无需人类干预，模型即可自动执行梯度更新，独立学习新知识或适应新任务。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第1张

SEAL（Self-Adapting LLMs）框架采用内外双层嵌套的学习机制。

在此机制下，系统根据更新后模型在任务中的表现计算奖励，进而优化自我更新指令的生成策略。

SEAL首次在权重层面上赋予大模型自我驱动的更新能力，突破了完全依赖外部监督数据的限制。

模型自动化学习知识更新策略

SEAL在研究中通过两大实验任务验证其效能：知识注入（knowledge incorporation）与小样本学习（few-shot learning）。

这两类任务对应模型进化中的核心场景——吸收新知识以及快速适应新任务。

知识注入

在知识注入实验中，团队采用Qwen2.5-7B模型及SQuAD数据集的段落与问题。

每轮训练中，模型接收新段落作为输入上下文，但未获知对应答案。

模型首先生成训练数据，随后使用LoRA进行轻量微调，该过程仅基于生成数据，不含原始段落或问题。

微调后，模型在下游任务中评估，需在没有原始段落输入的情况下回答相关提问。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第2张

实验比较了多种方案：

仅用原始段落微调；
借助GPT-4.1生成的隐含句子辅助训练；
采用SEAL自身生成的数据微调。

单段落测试中，Qwen原始模型准确率为32.7%，使用原文微调后升至33.5%；加入GPT-4.1合成数据后达46.3%；而SEAL微调后准确率进一步提升至47.0%。

这表明SEAL不仅优于原文或非优化生成数据，甚至超越了GPT-4.1生成的高质量提示数据，展现出卓越的知识整合能力。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第3张

此外，研究还测试了更长段落，包括200段落及完整SQuAD验证集（2067段落），SEAL在200段落设置中取得58.2%准确率，显著高于未优化版本，证明SEAL可扩展至大规模数据整理任务。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第4张

小样本学习

在小样本学习实验中，团队使用LLaMA-3.2-1B-Instruct模型及ARC-AGI数据集的筛选任务子集。

ARC任务通常包含多个示例的图形变换（文本形式）输入输出对，旨在从中学习规律并对新输入进行预测。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第5张

SEAL接收这些示例后，不直接推理，而是生成训练配置并执行LoRA微调，随后在测试输入上预测。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第6张

结果显示，SEAL训练的策略使任务成功率达到72.5%，远高于固定小样本提示的0%，也明显优于随机采样策略的20%。

虽未达到人工最优策略（Oracle TTT）的100%，但作为模型自主探索的学习路径，此成功率充分证实SEAL具备强大任务适应能力。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第7张

那么，SEAL框架如何运作呢？

双循环系统自动生成训练指令

SEAL的工作流程简言之：读取新信息，以自身语言重述，并进行梯度更新，实现自主学习。

结构上，SEAL系统由两部分组成——强化学习驱动的外部循环与执行参数更新的内部循环。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第8张

外层中，模型面对新输入上下文（如文本或任务示例），首先生成一条自我编辑指令。

这是一段自然语言“微调指令”，描述模型如何基于当前输入更新自身，包括信息提取、训练样本生成、训练参数（如学习率、轮数、损失策略）等。

此行为本质是模型设计自身训练流程。

随后进入内层，模型按自我编辑指令执行微调。

此步会构建合成训练数据，可能含推理句、问答对、重述信息或任务样本变换，并以指定优化策略更新权重。

更新后的新模型立即用于解决相应任务（如回答问题或完成预测），评估效果并获得表现评分。

此评分（奖励）反映自我编辑对性能的提升效果，进而用于优化下一步自我编辑策略。

为实现策略优化，SEAL采用一种非传统强化学习方法，称为ReSTEM（Reinforcement Learning with Sampled Trajectories and Expert Mimicry）。

MIT SEAL框架：大模型实现自我驱动更新与自适应学习自我更新大模型强化学习框架知识注入小样本学习第9张

其核心思路并非直接对奖励梯度回传，而是采用行为克隆加过滤采样的方式。

具体而言，在每个上下文中，模型生成多个自我编辑候选，每个候选被应用并执行微调，得到新模型。

随后评估新模型在任务上的表现，仅保留带来性能提升的自我编辑。

接着以这批“有效”自我编辑作为训练数据，对生成策略进行有监督微调（行为克隆），并迭代此过程，使模型越来越倾向生成有效自我编辑。

ReSTEM本质是期望最大化过程，相较于PPO等策略梯度方法，ReSTEM结构更简单、训练更稳定，也更适合大模型生成行为学习任务。

通过此机制，SEAL实现了“学会如何让自己学得更好”。

模型不仅能基于现有数据完成任务，更能主动设计训练方式、构建训练数据，并通过反馈持续优化“自学习”策略。最终展现为具备自我编辑与持续进化能力的语言模型架构。

论文地址：https://arxiv.org/abs/2506.10943

项目主页：https://jyopari.github.io/posts/seal

服务器教程性价比vps

本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260115967.html

MIT SEAL框架：大模型实现自我驱动更新与自适应学习

模型自动化学习知识更新策略

知识注入

小样本学习

双循环系统自动生成训练指令

Linux多线程详解（概念入门与控制实践）

CH340驱动下载安装指南（Windows/Linux/MacOS 2025最新版：从安装到内核优化的深度解析）

MIT SEAL框架：大模型实现自我驱动更新与自适应学习

模型自动化学习知识更新策略

知识注入

小样本学习

双循环系统自动生成训练指令

Linux多线程详解（概念入门与控制实践）

CH340驱动下载安装指南（Windows/Linux/MacOS 2025最新版：从安装到内核优化的深度解析）

相关文章