当前位置：首页 > 科技资讯 > 正文

大模型自我进化：SEAL框架实现自主更新

主机测评网
科技资讯
2026-05-04
450

大模型迈向自我进化新时代！

MIT团队解锁新技能，通过强化学习框架让模型生成微调数据和自我更新指令，实现权重更新，无需人工插手。

模型能自动进行梯度更新，自主学习新知识或适应新任务，令人瞩目。

大模型自我进化：SEAL框架实现自主更新 SEAL 大模型自我更新强化学习第1张

此框架名为SEAL（Self-Adapting LLMs），是内外两层嵌套的学习机制。

根据模型在任务上的表现计算奖励，优化自我更新指令的生成策略。

SEAL首次在权重层面赋予大模型自我驱动的更新能力，摆脱依赖外部监督数据的局限。

模型自动学习知识更新策略

SEAL在论文中通过两个实验验证其效果，分别是知识注入和小样本学习。

这两类任务分别对应模型进化的两种基本情境——记住新知识，以及快速适应新任务。

知识注入

实验中，研究者使用Qwen2.5-7B模型和SQuAD数据集的段落及问题。

每轮训练开始，模型接收新段落作为输入，但不会看到答案。

模型根据输入生成训练数据，使用LoRA进行微调，仅基于生成的数据，不包括原始段落或问题。

大模型自我进化：SEAL框架实现自主更新 SEAL 大模型自我更新强化学习第2张

实验对比了多种方案，结果显示SEAL微调后准确率提升至47.0%，优于使用原文或非优化生成数据，甚至超越GPT-4.1的高质量提示数据。

小样本学习

小样本学习中，研究者使用LLaMA-3.2-1B-Instruct模型和ARC-AGI数据集的任务子集。

SEAL接收示例后，生成训练配置并执行LoRA微调，随后进行预测。

大模型自我进化：SEAL框架实现自主更新 SEAL 大模型自我更新强化学习第3张

结果显示，SEAL训练的策略使任务成功率达72.5%，远高于固定few-shot提示的0%，也优于随机采样策略的20%。

双循环系统自动生成训练指令

SEAL通过读取新信息、重写并梯度更新，实现自主学习。

系统由强化学习驱动的外部循环和参数更新的内部循环构成。

大模型自我进化：SEAL框架实现自主更新 SEAL 大模型自我更新强化学习第4张

外层模型中，面对新输入上下文，生成self-edit指令描述如何更新自己。

内层执行微调，构造合成训练数据并执行权重更新。

评估新模型效果后，使用ReSTEM方法优化策略。

大模型自我进化：SEAL框架实现自主更新 SEAL 大模型自我更新强化学习第5张

ReSTEM采用行为克隆+过滤采样方式，仅保留带来性能提升的self-edit。

通过反复迭代，模型越来越擅长生成有效self-edit。

SEAL实现了“学会如何让自己学得更好”，不仅完成任务，还能设计训练方式、构造数据，并优化自学习策略。

论文地址

项目主页

免费服务器性价比服务器高防服务器

本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542623.html

大模型自我进化：SEAL框架实现自主更新

模型自动学习知识更新策略

知识注入

小样本学习

双循环系统自动生成训练指令

OpenAI巨额采购背后的金融炼金术

投资人转向：基础设施资产成新宠

大模型自我进化：SEAL框架实现自主更新

模型自动学习知识更新策略

知识注入

小样本学习

双循环系统自动生成训练指令

OpenAI巨额采购背后的金融炼金术

投资人转向：基础设施资产成新宠

相关文章