当前位置：首页 > 科技资讯 > 正文

从BERT到文本扩散：革命性变革的奥秘

主机测评网
科技资讯
2026-05-09
635

Karpathy难以抵挡的诱惑！苹果的前员工、德克萨斯大学奥斯汀分校（UT Austin）的计算机科学研究生Nathan Barry，得出了惊人的结论：BERT本质上，只是文本扩散中的一步！基于「强化版BERT」RoBERTa，他成功地把表示学习算法改造为生成算法。看完帖子后，OpenAI创始员工、特斯拉前AI总监Karpathy陷入了沉思：人类的思维或许更偏向自回归一些，但在我们的思维潜空间里，也很难说就不存在某种更像扩散的机制。这部分生成逻辑在LLM架构中，依然是一个相对「可变」的部分。不过，Karpathy最近忙于为Eureka Labs的《LLM 101n》课程开发终级实践项目「100美元带回家的ChatGPT」，所以他只能「忍痛割爱」：现在我必须克制住用扩散模型训练nanochat的冲动，不能偏离主线去搞支线任务了。当第一次读到语言扩散模型论文时，Nathan Barry惊讶地发现它们的训练目标只是掩码语言建模（masked language model，MLM）的一种推广。自从2018年BERT以来，大家早已对掩码语言建模习以为常。他脑海里立刻冒出一个想法：我们能不能把类似BERT的模型微调一下，让它也能做文本生成？出于好奇，他做了个快速的验证实验。随后，他发现其实早就有人做过了——DiffusionBERT基本就是这个想法，不过做得更严谨。值得一提的是，大约3年前，DiffusionBERT由国内高校的研究者提出，100%国产！最初，扩散模型在图像生成领域一炮而红。在图像生成中，扩散模型会先对图像逐步添加高斯噪声（前向过程），然后训练神经网络对其进行迭代去噪（反向过程）。将这一思路应用于文本领域，意味着我们需要找到方法对文本添加噪声并在之后分阶段消除。最简单的实现方式是基于掩码的噪声处理流程：在前向过程中，初始文本未被破坏。在每一步迭代中，根据预设的调度计划（从0%到100%），随机将一定比例的词语替换为特殊的<MASK>标记。在反向（去噪）过程中，训练模型根据每个<MASK>预测正确的原始词语。这与掩码语言模型(MLM)类似，但采用了动态掩码率。换句话说，BERT的MLM训练目标，其实就可以看作是文本扩散的一种特例，只不过它用的是固定的掩码率。而只要我们引入一个从0到1的动态掩码率范围，就可以把BERT的训练目标自然扩展为一个完整的文本生成过程。这次的概念验证无疑非常成功——若能结合AR-Diffusion、跳跃步扩散等新兴技术并深度优化，生成质量与推理速度都将获得飞跃提升。通过实验证明，以RoBERTa为代表的掩码语言模型（原本专为填空任务设计），将变比率掩码重构为离散扩散过程，完全可以转型为全功能生成引擎。通过渐进式植入<MASK>标记污染文本，并训练模型在递增的掩码强度下迭代去噪，标准MLM目标成功地转化为渐进式文本生成流程。值得注意的是，即使不调整模型架构，仅对训练目标进行微调后的RoBERTa就能生成视觉连贯的文本。这有力印证了一个重要洞见：本质上，BERT系模型就是在固定掩码率上训练的文本扩散模型。Karpathy点赞了Nathan Barry的短文：帖子虽短，却解释了文本（离散）扩散模型可以有多简单。……许多扩散模型的论文看起来颇为晦涩，但若抛开数学形式的外壳，最终得到的往往是简洁的基础算法。