从BERT到文本扩散:革命性变革的奥秘
Karpathy难以抵挡的诱惑!苹果的前员工、德克萨斯大学奥斯汀分校(UT Austin)的计算机科学研究生Nathan Barry,得出了惊人的结论:BERT本质上,只是文本扩散中的一步!基于「强化版BERT」RoBERTa,他成功地把表示学习算法改造为生成算法。看完帖子后,OpenAI创始员工、特斯拉前AI总监Karpathy陷入了沉思:人类的思维或许更偏向自回归一些,但在我们的思维潜空间里,也很难说就不存在某种更像扩散的机制。这部分生成逻辑在LLM架构中,依然是一个相对「可变」的部分。不过,Karpathy最近忙于为Eureka Labs的《LLM 101n》课程开发终级实践项目「100美元带回家的ChatGPT」,所以他只能「忍痛割爱」:现在我必须克制住用扩散模型训练nanochat的冲动,不能偏离主线去搞支线任务了。当第一次读到语言扩散模型论文时,Nathan Barry惊讶地发现它们的训练目标只是掩码语言建模(masked language model,MLM)的一种推广。自从2018年BERT以来,大家早已对掩码语言建模习以为常。他脑海里立刻冒出一个想法:我们能不能把类似BERT的模型微调一下,让它也能做文本生成?出于好奇,他做了个快速的验证实验。随后,他发现其实早就有人做过了——DiffusionBERT基本就是这个想法,不过做得更严谨。值得一提的是,大约3年前,DiffusionBERT由国内高校的研究者提出,100%国产!最初,扩散模型在图像生成领域一炮而红。在图像生成中,扩散模型会先对图像逐步添加高斯噪声(前向过程),然后训练神经网络对其进行迭代去噪(反向过程)。将这一思路应用于文本领域,意味着我们需要找到方法对文本添加噪声并在之后分阶段消除。最简单的实现方式是基于掩码的噪声处理流程:在前向过程中,初始文本未被破坏。在每一步迭代中,根据预设的调度计划(从0%到100%),随机将一定比例的词语替换为特殊的<MASK>标记。在反向(去噪)过程中,训练模型根据每个<MASK>预测正确的原始词语。这与掩码语言模型(MLM)类似,但采用了动态掩码率。换句话说,BERT的MLM训练目标,其实就可以看作是文本扩散的一种特例,只不过它用的是固定的掩码率。而只要我们引入一个从0到1的动态掩码率范围,就可以把BERT的训练目标自然扩展为一个完整的文本生成过程。这次的概念验证无疑非常成功——若能结合AR-Diffusion、跳跃步扩散等新兴技术并深度优化,生成质量与推理速度都将获得飞跃提升。通过实验证明,以RoBERTa为代表的掩码语言模型(原本专为填空任务设计),将变比率掩码重构为离散扩散过程,完全可以转型为全功能生成引擎。通过渐进式植入<MASK>标记污染文本,并训练模型在递增的掩码强度下迭代去噪,标准MLM目标成功地转化为渐进式文本生成流程。值得注意的是,即使不调整模型架构,仅对训练目标进行微调后的RoBERTa就能生成视觉连贯的文本。这有力印证了一个重要洞见:本质上,BERT系模型就是在固定掩码率上训练的文本扩散模型。Karpathy点赞了Nathan Barry的短文:帖子虽短,却解释了文本(离散)扩散模型可以有多简单。……许多扩散模型的论文看起来颇为晦涩,但若抛开数学形式的外壳,最终得到的往往是简洁的基础算法。