受自然演化过程的深刻启示,Sakana AI创新性地提出了名为M2N2的模型融合进化框架。该方法引入生物界的“择偶机制”,使AI模型能够模拟生命体的竞争、配对与繁衍行为。面对全球算力紧缺与模型训练规模受限的挑战,Sakana AI借助自然界智慧,为模型融合技术探索出一条全新的发展路径。
如果AI模型能像生物一样演化,它们是否会相互竞争、协作、结合,并孕育出性能更卓越的后代?
“物竞天择,适者生存”的进化论原则,是否同样适用于AI模型的演进过程?
近期,Sakana AI从自然演化中汲取灵感,开发出一种基于“竞争与吸引力”自然选择机制的AI模型融合优化方法。
Sakana AI认为,AI模型的演进与自然演化存在相似性:
集体智慧从群体协作中涌现。
例如:自然界并未创造单一巨型生物,而是形成了多样化的生态系统。其中,个体通过竞争、合作与组合来适应环境并繁衍后代。
这正是Sakana AI所设想的AI世界形态:
当人类不再追求构建庞大单体AI,而是培育整个AI生态系统,让专业模型在其中竞争、协作、融合……这将带来怎样的变革?
团队不仅停留在构想阶段,而是持续探索模型融合技术,试图通过演化机制破解模型融合的“最优配方”。
如今,他们正式公开了这一“最优配方”!
该研究已在GECCO 2025会议上发表,并荣获最佳论文提名奖!
论文地址:https://arxiv.org/abs/2508.16204
GitHub:https://github.com/SakanaAI/natural_niches
传统模型融合需要人工干预,手动定义模型分割方式(如按固定层或模块划分)。
能否让这一过程像自然演化一样自动化运行?
Sakana AI提出的M2N2(自然生态位的模型融合)成功攻克了这一难题。
该方法源于自然演化的三大核心思想:
这一尝试成果令人鼓舞:M2N2模型融合技术已在模型演化中成功应用,表现优于其他演化算法。例如:
这令网友Aragon Dev感叹:
“2025年,智能体竟比自己先找到对象”
M2N2通过结合竞争、吸引力与可切分点模型融合的新进化方法,显著提升了模型融合效果。
它首次将模型融合用于从零开始训练,并在性能与计算效率上优于所有现有进化算法。
研究人员将M2N2扩展至LLM和基于扩散的图像生成模型后,展现出诸多优势:
在模型融合中,目标是从𝐾个初始模型中找到融合模型的最优参数𝜃∗,以最大化通常以任务分数和/平均表示的优化目标。
M2N2中,研究人员修改融合函数ℎ使融合边界可进化,同时调整优化目标以促进多样性。
M2N2消除了固定模型融合边界的限制。
为摆脱固定边界的约束,研究人员通过探索更广泛的边界与系数逐步扩展搜索空间,这一渐进引入复杂度的做法既拓宽可能性又保持计算可控。
对有限资源的竞争天然促进多样性。
研究人员通过修改优化目标来鼓励多样性。通过限制资源供给,M2N2激发竞争,自然偏好占据新生态位的个体。
具体做法:
将群体从某个样本𝑥𝑗中提取的总适应度限制为容量𝑐𝑗。
候选解从𝑥𝑗获得的适应度,正比于其分数相对于群体总分的占比。
修改后的目标为:
在生物学中,结合(繁殖)代价高昂,因此动物会在择偶过程中投入大量资源。
M2N2额外考虑父本间的互补性,通过逐步引入复杂度,在保持计算可控的同时扩大可探索范围。
本实验优化一个包含19,210个参数的两层前馈神经网络。
从零开始时,研究人员随机初始化模型。
对于预训练模型,研究人员构建了两个专用模型:一个在数字0–4上训练,另一个在数字5–9上训练。
结果表明,从零开始时,M2N2在测试准确率上显著优于其他模型融合方法(图2左)。
对从零开始训练的模型,切分点与吸引力得分影响较小。但如图2右所示,从预训练模型起步时,切分点变得至关重要,而吸引力在整个训练过程中都能显著提升性能。
在多样性方面,图3左展示了至少被库中一个模型正确标注的训练样本占比——训练覆盖率。
图3右侧展示了群体性能多样性随训练的演化:
若所有模型对同一样本均对/均错,则熵为0(无多样性);若模型在预测上均匀分裂,熵达最大1。
从图3可见,M2N2的模型库迅速覆盖绝大多数训练样本,并在整个训练过程中保持高覆盖。
图3还展示了所有样本的平均熵:M2N2在初期熵快速上升,随后随着低性能模型淘汰而逐渐下降。
对比之下,MAP-Elites通过保留低性能模型持续提高多样性,但未能实现高覆盖。
总体看,M2N2维持了一个优势互补的模型库,既促进有效融合,又在训练推进时系统淘汰弱模型。
如图4显示,较小的库起步更快,但更快收敛到较差解。
这表明应按计划的前向次数来扩展库大小。
值得注意的是,库增大并不增加计算成本(前向次数不变),但会增加内存占用。对超大模型,可将模型库存盘而非常驻内存。
本实验中,研究人员将数学专家WizardMath-7B-V1.0与智能体环境专家AgentEvol-7B融合,目标是在数学基准GSM8k与网页购物基准WebShop上表现优异。
实验结果表明,表1显示M2N2得分最高。吸引力与切分点两项技术都至关重要,其中切分点技术更关键一些。
当融合数学与智能体技能时,CMA-ES得分较低,可能由于参数划分不佳,这强调了在优化过程中纳入融合边界的必要性。
如图5所示,MNIST的发现可推广到LLM融合。
如左图,自然生态位方法保持了高训练覆盖率;在模型探索不同生态位的早期,熵上升(右图);随着低性能模型被移除、优势被聚合,熵逐步下降。
相比之下,MAP-Elites侧重最大化熵,但因保留低性能模型而牺牲训练效率与覆盖;GA则迅速降低覆盖与熵,并“贪心”地收敛到其最优解,最终使整个库“塌缩”为单一解,熵接近零。
本实验评估了M2N2在融合多样文本到图像模型中的表现。
初始模型包括针对日文提示训练的JSDXL,以及主要由英文提示训练的三个模型:SDXL1.0、SDXL-DPO与Juggernaut-XL-v9。
这些模型共享SDXL 1.0的基础架构。
模型融合的主要目标是在保留JSDXL理解日文提示能力的同时,整合各初始模型在图像生成方面的最佳能力。
表2展示了各模型在测试集上的表现,M2N2在测试集上的NCS分数优于所有其他模型。
图6展示了M2N2融合模型如何成功结合各初始模型优势并缓解其弱点,体现了其在性能多样性与质量聚合方面的成功。
若不考虑融合模型,可观察到每个初始模型在不同测试用例上均可能产出最高与最低质量结果。
此外,很难找到清晰模式来描述每个模型的专长,或指导如何构造有效的自定义多样性度量。
M2N2的多样性保持机制通过自动保留那些在其他模型表现不佳的样本上独特出众的模型,解决了这一难题。
M2N2融合模型相对于初始模型有两点关键改进:
如图6最右列展示,虽然若干初始模型生成了美观的自行车,但M2N2融合模型不仅准确聚焦于标题指明的“车牌号显示区域”,还生成了更像真实照片而非合成渲染的图像。
M2N2在语言理解能力上同样出色。
图7显示,M2N2融合模型对日语与英语均有良好理解。
这种涌现的双语能力体现了M2N2的关键优势:
它能够聚合互补能力,同时避免基于梯度训练常见的灾难性遗忘。
表3显示M2N2融合模型显著优于其他模型,这在统计上印证了定性观察结果。
模型融合的可行性高度依赖模型间的相似程度,但也存在限制:当微调模型与其基座模型显著偏离(通常由于大量、分歧的训练)时,融合会变得困难。
表3列出了基于100对样本,日文提示与其英文翻译生成图像的CLIP特征余弦相似度均值(±标准误),数值越高表明跨语言一致性越好。研究人员假设状态表示分歧较大的模型不适合融合。然而,尚无标准的模型兼容性度量。
若能定义此类度量,便可在预处理(如微调)中作为正则化使用,从而更好地控制兼容性并提升融合成功率。
研究人员认为,共同演化的模型会受到“保持可融合兼容性”的强烈进化压力。若某个模型偏离并与其他模型不兼容,将无法产生“可存活的后代”,导致其改进停滞并最终灭绝。
验证这一假设将有助于理解模型共演化的动力学。此外,将兼容性度量纳入吸引力启发式,可能促进不同“物种”模型的共演化(定义为彼此可融合、但与其他组不可融合的模型群体)。
Yujin Tang是Sakana AI的主任研究科学家,研究方向包括强化学习、机器人学、进化算法和生成模型等。
他在东京大学获得计算机科学博士学位,在早稻田大学获得硕士学位,并在上海交通大学获得学士学位。
在加入Sakana AI之前,他曾是Google DeepMind和Google Brain的高级研究科学家。
https://x.com/SakanaAILabs/status/1959799343088857233%20%20
https://arxiv.org/abs/2508.16204
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212790.html