当前位置:首页 > 科技资讯 > 正文

YouTube:将大模型“瘦身”至手机,实时生成惊艳特效

如此庞大的模型,是如何被塞进手机的呢?YouTube给出了答案:在 Shorts 相机里,AI能实时「重塑」你的面容,让你秒变僵尸、卡通人物,甚至瞬间拥有水光肌,效果逼真到难以分辨真假。

在YouTube Shorts相机中,每个人都能体验到「千变万化」。

无论是卡通角色、万圣节僵尸,还是瞬间拥有自然流畅的粉色水光肌,都能轻松实现。

最神奇的是,这些特效全部在手机上实时生成。

那么问题来了:YouTube是如何将那些动辄十几个G的大模型,巧妙地塞进手机的呢?

大模型变小:YouTube的「瘦身秘诀」

生成式AI模型的效果令人惊叹,但它们的体积和速度却成了大问题。

像StyleGAN、Imagen这样的模型,只能在服务器上运行。

因此,必须解决的问题是让这些滤镜能在手机相机里即时生效。

关键步骤:知识蒸馏

YouTube的思路是,将庞大的生成模型「瘦身」,变成适合移动端的小模型。

这一过程依赖于一种名为知识蒸馏的方法。

简单来说,就是「老师–学生模式」:大模型当老师,生成各种示范;小模型当学生,逐步模仿,直到能独立完成任务。

老师可能是几十G的巨无霸,而学生则是轻量级的UNet+MobileNet架构,能在手机GPU上轻松达到30帧。

然而,实际的教学过程远比这复杂得多。

细节打磨:迭代蒸馏

工程师们采用的是迭代式蒸馏,而不是「一次教完」。

大模型不仅出题给学生,还会在过程中不断测试各种情况:给人脸戴眼镜、遮挡,甚至模拟手挡脸的场景。

学生在学习时,不仅要满足多种标准:画面数值对得上、看上去相似、自然不突兀,还要兼顾美感。

整个过程就像反复刷题:学生交卷,老师挑错,再调整参数继续练习。

YouTube:将大模型“瘦身”至手机,实时生成惊艳特效 YouTube 大模型 知识蒸馏 PTI 第1张

YouTube的蒸馏流程:大模型先生成前后对照的图像对,小模型在此基础上不断学习,并通过超参数搜索迭代优化,最终实现如「永不眨眼」这样的实时特效。

工程师们甚至用上了神经架构搜索,自动帮助学生找到最合适的「学习内容」,让它既高效又稳定。

经过无数次的打磨,小模型终于真正掌握了大模型的精髓。

在Pixel 8 Pro上,只需6毫秒就能完成一帧运算,iPhone 13大约10毫秒,完全满足实时30帧的要求。

确保「你」还是「你」:PTI的保证

生成式AI在添加特效时有个通病:它不会在原图上叠加效果,而是会重新生成整张人脸。

结果往往是肤色变了,眼镜没了,甚至五官都会变形,看上去完全不像本人。

这就是「inversion problem」——当模型把人脸转到潜在空间时,没能忠实还原身份特征。

YouTube的解决方案是Pivotal Tuning Inversion (PTI)。

可以理解为:在加特效之前,先让AI学会精准地「认清你是谁」。

原始图像会先被压缩成一个潜在向量,生成器用它画出一张初步的脸,但往往细节不到位。

于是工程师让生成器反复微调,让肤色、眼镜和五官逐渐被校正回来。

等身份被牢牢固定之后,再往里面加风格向量:比如笑容、卡通效果或者妆容。

最后生成的画面,看上去就是「还是你,只是换了个风格」。

YouTube:将大模型“瘦身”至手机,实时生成惊艳特效 YouTube 大模型 知识蒸馏 PTI 第2张

图:PTI的完整流程:从输入人脸,到生成初始inversion,再经过多轮微调,最后在保留身份特征的前提下叠加特效,得到最终图像。

换句话说,PTI保证了这些AI特效更像化妆,而不是换脸。

手机里的流水线工厂:MediaPipe加速管道

训练出轻量级的小模型只是第一步,真正的挑战是如何稳定地在手机上运行。

为此,YouTube选择了MediaPipe——Google AI Edge的开源多模态ML框架,用它来搭建端侧的完整推理管道。

整个流程可以分成四步:

首先,通过MediaPipe的Face Mesh模块,识别出视频流中的一个或多个人脸。

接着,由于学生模型对人脸位置很敏感,系统会将检测到的人脸进行稳定裁剪和旋转对齐,保证输入一致。

之后,裁剪后的图像被转成张量输入学生模型,特效(比如微笑、卡通风格)在这一环节实时生成。

最后,模型输出的人脸图像再被无缝拼回到原始视频帧中,让用户看到连贯自然的最终画面。

YouTube:将大模型“瘦身”至手机,实时生成惊艳特效 YouTube 大模型 知识蒸馏 PTI 第3张

图:MediaPipe在端侧的完整推理流程:先检测人脸并稳定对齐,再送入学生模型生成特效,最后拼回视频帧,整个过程在毫秒级内完成。

通过GPU加速,Pixel 8 Pro上的推理延迟被压缩到约6毫秒/帧,iPhone 13 GPU约10.6毫秒/帧。

不止美颜:YouTube的实时AI秀场

an style="display: inline; white-space: pre;">





















<

这套技术已经在YouTube Shorts上全面应用起来。创作者们可以随时随地使用几十种实时特效。想要时刻挂着微笑?用Always Smile滤镜吧!即使你此刻面无表情,镜头里也会立刻露出笑容。

<