当前位置:首页 > 科技资讯 > 正文

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据

设想一下,假若要求一位经验丰富的大厨利用发霉食材和过期调料制作菜肴,即使其烹饪技术再高超,也难以做出美味。AI的训练同样遵循这一原则。

1. 数据之于AI,犹如食材之于佳肴

当前主流的AI图像生成模型,例如Stable Diffusion、FLUX等,都需要从网络上抓取数以百万计的图像进行学习。然而,这些网络图片的质量良莠不齐:部分模糊不清,有些内容重复,更有甚者仅仅是广告背景图。使用这类“劣质食材”训练的AI,其生成效果自然难以令人满意。

由香港大学丁凯欣领衔,联合华南理工大学周洋以及快手科技Kling团队共同研发的一项研究,推出了一款名为“炼金师”(Alchemist)的AI系统。该系统犹如一位严苛的美食家,能够从海量的图像数据中精准筛选出最具价值的一半样本。

更令人振奋的结果是:

  • 采用这50%精选数据训练的模型,其表现甚至超越了使用全部数据的模型
  • 训练速度提升高达 5倍
  • 仅需20%的精选数据,即可实现随机选取50%数据的同等效果

2. 赋予AI自我评估的能力

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第1张

2.1 传统数据筛选的弊端

传统的数据筛选方式好比用筛子过滤米粒,往往只能依据单一维度进行评判:

  • 仅关注图像清晰度
  • 仅考量文本匹配程度
  • 仅依据美学评分

此类方法的根本缺陷在于:它们无法辨别哪些数据才能真正促进AI的学习进程

2.2 “炼金师”的独到之处

相比之下,“炼金师”更像一位阅历深厚的美食评论家,能够综合考量多个维度:

  • 不仅审视“菜品”的外观
  • 还会品味其口感
  • 甚至评估整体的营养均衡

其核心理念在于:引导AI学会观察并反思自身的学习历程。

“炼金师”训练了一个专用的评分模型,该模型如同资深艺术导师,能够评估每张图像在整个学习过程中的贡献价值。

评判标准:

✅ 若某张图像能使AI模型获取新知识并迅速优化 → 优质数据

❌ 若某张图像经过多次学习后仍无明显提升 → 无效数据

这就好比通过观察学生解题时的表情变化和进步速度,来判断题目难度是否适宜。

3. 并非越简单越有效

3.1 反直觉的发现

研究团队揭示了一个违背常理的现象:

那些看似最为“简单”的图像,例如纯白背景下的产品照片:

  • 尽管能促使AI快速收敛
  • 但对于模型综合能力的提升却贡献有限
  • 正如反复练习最简单的加法题,虽不会出错,却无助于数学思维的进阶

恰恰相反,那些内容丰富且具有一定挑战性的图像,才是真正的“养分”

3.2 实验验证

研究团队跟踪了不同评分区间图像在训练过程中的动态变化:

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第2张

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第3张

4. 技术核心:偏移高斯采样(Shift-Gsample)

基于上述发现,团队创新性地提出了“偏移高斯采样”(Shift-Gsample)策略。

4.1 传统方法与“炼金师”之比较

传统Top-K方法:

  • 直接选取评分最高的数据
  • ❌但这些数据通常过于简单,缺乏实质性内容

炼金师策略:

  • ✅避开评分过高的“简单”样本
  • ✅优先选择评分中等偏上的“高价值”数据
  • ✅保留少量简单与困难样本,以确保数据多样性

这如同制定健身方案:

  • ❌避免过于轻松的运动(无法达到锻炼效果)
  • ❌规避过于艰难的运动(易导致受伤)

4.2 多粒度感知机制

为更精准地评估数据质量,“炼金师”还引入了“多粒度感知”机制:

  • 微观层面:评估单张图像的质量
  • 宏观层面:考量整批数据的组合效果

正如营养师不仅关注单一食材的营养成分,还会统筹整餐的营养均衡。

5. 实验结果:用数据验证

5.1 关键成果对比

在LAION-30M数据集上:

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第4张

关键发现:

  • 使用50%精选数据的模型表现超越全量数据
  • 仅用20%精选数据即可达到随机选取50%数据的效果
  • 训练速度提升达 5倍

5.2 跨模型适用性

“炼金师”方法在不同规模和架构的模型上均表现优异:

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第5张

5.3 跨数据集适应性

在多种类型数据集上的测试结果:

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第6张

HPDv3-2M数据集(真实+合成混合):

  • 保留20%数据:FID从35.55降至 32.27
  • 保留50%数据:FID从20.21降至 18.15

Flux-reason-6M数据集(纯合成推理数据):

  • 保留20%数据:FID从23.66降至 22.78
  • 保留50%数据:FID从19.35降至 18.59

6. 可视化分析:直观呈现

6.1 数据分布特征

研究团队对筛选后的数据进行了可视化展示:

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第7张

0-20%高分区域(简单但营养不足):

  • 白色或纯色背景
  • 构图简洁的产品图像
  • 视觉清晰但信息量较少

30-80%中分区域(最有价值的“金中间”):

  • 内容充实
  • 主题突出
  • 动作明晰
  • “炼金师”重点关注的区域

80-100%低分区域(过于混乱):

  • 噪声图像
  • 多物体杂乱场景
  • 视觉元素密集区
  • 内容模糊不清

6.2 训练动态对比

训练稳定性对比:

采用“炼金师”筛选的数据,表现出:

✅ 持续稳定的性能提升

✅ 更快的收敛速度

✅ 更小的训练波动

而随机选取的数据则呈现:

❌ 初期训练波动较大

❌ 性能提升缓慢

❌ 需要更多训练轮次才能收敛

AI训练新突破:“炼金师”系统用一半数据实现5倍速训练,效果超全量数据 AI训练 数据筛选 炼金师 训练效率 第8张

7. 技术深入:元梯度优化框架

7.1 双层优化问题

“炼金师”的核心架构是一个双层优化框架

外层优化:学习评分策略

  • 目标:探寻最优评分策略
  • 评价指标:验证集上的性能表现

内层优化:训练代理模型

  • 目标:利用加权数据训练模型
  • 权重由评分模型决定

7.2 元梯度更新机制

  • 系统通过比较两个模型的表现差异来更新评分:
  • 评分更新量 ∝ 代理模型的验证集损失

核心思想:

若某样本能提升验证性能 → 则提高其评分

若某样本仅降低训练损失而未能提升验证性能 → 则降低其评分

8. 问答环节

Q1:“炼金师”如何判定图像数据的价值?

A:“炼金师”通过观察AI模型在学习过程中的“反馈”来评估数据价值:

✅ 优质数据:能使模型获取新知识并快速优化

❌ 劣质数据:模型反复学习却无明显进步

这正如通过观察学生解题时的表情与进步速度,来评判题目难度是否恰当。

技术细节

  • 监测训练损失变化
  • 跟踪梯度动态
  • 比较验证集性能提升

Q2:为何使用一半数据训练的模型反而优于全量数据?

A:因为并非所有数据都具有同等价值,关键在于质量而非数量。

类比说明:

  • 教导孩子绘画时,精选5000幅优秀范画
  • 远胜于让他观看10000张杂乱涂鸦

科学原理:

1. 冗余数据消耗资源却无益于性能提升:例如重复的简单样本、模糊的噪声图像

2. 高价值数据能促进深度学习:如内容充实的中等难度样本、多样化的场景与对象

3. 防止过拟合:仅使用简单数据易导致模型“死记硬背”,需引入适当难度的数据以培养泛化能力

Q3:“炼金师”的数据筛选方法能否适用于其他AI模型?

A:完全可以!研究表明该方法具备优异的通用性和跨模型适配性

验证范围:

✅不同数据类型:

  • 网络爬取数据(如LAION)
  • 高质量合成数据(如Flux-reason)
  • 人类偏好标注数据(如HPDv3)

✅不同模型架构:

  • STAR系列(参数量40M至0.9B)
  • FLUX系列(参数量3B)
  • 从头训练与LoRA微调

✅不同模型规模:

  • 使用小模型(0.3B)筛选数据
  • 成功提升大模型(0.9B)的性能
  • 评分计算成本几乎可忽略

原理:

数据质量是其固有属性,不依赖于特定模型

正如优质食材适用于各种烹饪方式

资深教练制定的训练方案,既能满足业余爱好者,也适用于专业选手 

Project Page:https://kxding.github.io/project/Alchemist/

Github:https://github.com/KlingTeam/Alchemist/

arXiv:https://arxiv.org/abs/2512.16905