当前位置:首页 > 科技资讯 > 正文

炼金师:优化AI训练数据的“美食艺术”

试想,若让大厨使用劣质食材和过期调料烹饪,即便技艺高超,也无法制作出美味佳肴。AI训练亦是如此。

一、数据如食材,质量决定成果

当前AI图像生成模型,如Stable Diffusion、FLUX等,需从网络爬取数百万张图片学习。但图片质量参差不齐:有的模糊,有的重复,有的仅是广告背景。用这些“食材”训练AI,效果自然不佳。

由香港大学丁凯欣领衔,联合华南理工大学周洋及快手科技Kling团队,研发出名为“炼金师”(Alchemist)的AI系统。它如挑剔大厨,从海量图片中精准挑选最有价值的一半。

更令人惊喜的是:

  • 精选数据训练的模型表现优于全量数据
  • 训练速度提升5倍
  • 仅用20%精选数据,即可达到50%随机数据的效果

二、让AI学会“自我评判”

炼金师:优化AI训练数据的“美食艺术” 炼金师 AI训练 数据筛选 性能提升 第1张

2.1 传统方法的局限

传统数据筛选方法如用筛子筛米粒,仅按单一标准过滤:

  • 只看图片清晰度
  • 只看文字匹配度
  • 只看美学评分

问题在于:它们不知哪些数据真正有助于AI学习。

2.2 炼金师的智慧

“炼金师”如资深美食评委,能同时考虑多个维度:

  • 不仅看“菜品”卖相
  • 还要品尝口感
  • 甚至考虑营养搭配

核心思想:让AI观察自己的学习进程。

炼金师训练了专门的评分员模型,如资深艺术老师,能判断每张图片的学习价值。

三、最简单的不一定最好

3.1 意外的真相

研究团队发现违反直觉的现象:

看似最“简单”的图片,如纯白背景产品图:

  • 虽让AI快速收敛
  • 但对提升模型能力帮助不大
  • 如只做简单加法题,虽无误,但无助提升数学能力

相反,内容丰富、具挑战性的图片才是“营养品”

3.2 科学验证

研究团队追踪了不同评分区间图片的训练动态:

炼金师:优化AI训练数据的“美食艺术” 炼金师 AI训练 数据筛选 性能提升 第2张 炼金师:优化AI训练数据的“美食艺术” 炼金师 AI训练 数据筛选 性能提升 第3张