当前位置：首页 > 科技资讯 > 正文

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考

主机测评网
科技资讯
2026-01-20
612

Karpathy无法抗拒的吸引力！

苹果公司前员工、德克萨斯大学奥斯汀分校（UT Austin）的计算机科学研究生Nathan Barry，揭示了一个惊人发现：

BERT在本质上，仅仅是文本扩散过程中的一个关键步骤！

基于「增强版BERT」RoBERTa，他成功将表示学习算法转型为生成式算法：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第1张

阅读帖子后，OpenAI创始成员、特斯拉前AI总监Karpathy深入思考：

人类思维可能更倾向于自回归方式——逐步推进的逻辑。但在思维的潜在空间中，未必不存在类似扩散的机制。

或许在两者之间，可以进行插值处理，甚至进一步泛化。

这部分生成逻辑在大型语言模型架构中，仍然是一个相对「灵活」的组件。

不过，Karpathy近期专注于为Eureka Labs的《LLM 101n》课程开发终极实践项目「100美元构建家用ChatGPT」，因此他只能「暂时搁置」：

现在我必须抑制用扩散模型训练nanochat的冲动，避免偏离主线程去探索支线任务。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第2张

顺便一提，当天稍后，他又被DeepSeek-OCR激发了新灵感。

谷歌的遗留瑰宝

初次阅读语言扩散模型论文时，Nathan Barry惊讶地发现它们的训练目标仅是掩码语言建模（masked language model，MLM）的一种扩展形式。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第3张

自2018年BERT问世以来，业界早已对掩码语言建模司空见惯。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第4张

预印本：https://arxiv.org/abs/1810.04805

他脑海中立即浮现一个设想：能否对类似BERT的模型进行微调，使其具备文本生成能力？

出于好奇，他进行了快速验证实验。随后，他发现早有研究者先行一步——DiffusionBERT基本实现了这一构想，且方法更为系统。

值得注意的是，约三年前，DiffusionBERT由国内高校的研究团队提出，纯国产成果！

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第5张

预印本链接：https://arxiv.org/abs/2211.15029

最初，扩散模型在图像生成领域崭露头角。

在图像生成中，扩散模型首先对图像逐步添加高斯噪声（前向过程），然后训练神经网络进行迭代去噪（反向过程）。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第6张

将这一理念应用于文本领域，意味着需要找到对文本添加噪声并分阶段消除的方法。

最简实现是基于掩码的噪声处理流程：

在前向过程中，原始文本未被破坏。在每一步迭代中，根据预设调度计划（从0%到100%），随机将一定比例的词语替换为特殊标记

在反向（去噪）过程中，训练模型根据每个预测正确原始词语。这与掩码语言模型(MLM)相似，但采用动态掩码率

为应对以往方法的局限，BERT提出了掩码语言建模（Masked LM）。

具体操作是：对每条训练输入序列随机遮盖15%的词语，仅对这些被遮盖的词进行预测。用图示语言表达即：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第7张

换言之，BERT的MLM训练目标，实际可视为文本扩散的一个特例，仅使用固定掩码率。

而只要引入从0到1的动态掩码率范围，即可将BERT的训练目标自然扩展为完整文本生成过程。

扩展无处不在：自监督模型向生成模型转型

2019年发布的RoBERTa模型，是对原始BERT的一次强力升级。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第8张

预印本：https://arxiv.org/abs/1907.11692

它调整了超参数、扩展了训练语料，并精简了训练目标——

仅保留MLM（掩码语言建模），移除了「下一句预测」任务。

Nathan Barry利用HuggingFace开源库，加载RoBERTa预训练权重、分词器及Trainer类，对模型微调，数据集选用WikiText。核心代码（完整代码见原文）大致如下：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第9张

当前实现中，设定了10个扩散步骤，每个训练批次随机采样一个遮盖比例p，从 [1.0, 0.9, ..., 0.1] 中选取，并对该比例Token进行掩码处理。此逻辑封装于自定义diffusion_collator 中：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第10张

推理时，从长度为256的输入向量开始：前16个位置为提示词（prompt）的Token ID，后240个全为。随后，逐步降低掩码比例，每一步进行预测、采样、重新掩码。流程如下：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第11张

对应简化代码如下：

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第12张

在H200显卡上，经30分钟训练后，模型基于以下提示词生成文本：

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officialsadministered British Ireland, a Celtic empire under the control of the Irishnationalist authorities, defined as a dominion of Britain. As the newly Forticstates acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in1890, led by the support of settlers from the Irish colonies. Looking inwards,Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示词为：Following their victory in the French and Indian War, Britain began to assert greater...

生成文本展现出惊人连贯性！其中多数「异常点」，Nathan Barry归因于WikiText数据集自身格式化问题——如标点符号前后带空格，连字符「-」处理为@-@等。

从BERT到文本扩散：RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型文本生成 RoBERTa 第13张