当前位置:首页 > 科技资讯 > 正文

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考

Karpathy无法抗拒的吸引力!

苹果公司前员工、德克萨斯大学奥斯汀分校(UT Austin)的计算机科学研究生Nathan Barry,揭示了一个惊人发现:

BERT在本质上,仅仅是文本扩散过程中的一个关键步骤!

基于「增强版BERT」RoBERTa,他成功将表示学习算法转型为生成式算法:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第1张

阅读帖子后,OpenAI创始成员、特斯拉前AI总监Karpathy深入思考:

人类思维可能更倾向于自回归方式——逐步推进的逻辑。但在思维的潜在空间中,未必不存在类似扩散的机制。

或许在两者之间,可以进行插值处理,甚至进一步泛化。

这部分生成逻辑在大型语言模型架构中,仍然是一个相对「灵活」的组件。

不过,Karpathy近期专注于为Eureka Labs的《LLM 101n》课程开发终极实践项目「100美元构建家用ChatGPT」,因此他只能「暂时搁置」:

现在我必须抑制用扩散模型训练nanochat的冲动,避免偏离主线程去探索支线任务。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第2张

顺便一提,当天稍后,他又被DeepSeek-OCR激发了新灵感。

谷歌的遗留瑰宝

初次阅读语言扩散模型论文时,Nathan Barry惊讶地发现它们的训练目标仅是掩码语言建模(masked language model,MLM)的一种扩展形式。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第3张

自2018年BERT问世以来,业界早已对掩码语言建模司空见惯。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第4张

预印本:https://arxiv.org/abs/1810.04805

他脑海中立即浮现一个设想:能否对类似BERT的模型进行微调,使其具备文本生成能力?

出于好奇,他进行了快速验证实验。随后,他发现早有研究者先行一步——DiffusionBERT基本实现了这一构想,且方法更为系统。

值得注意的是,约三年前,DiffusionBERT由国内高校的研究团队提出,纯国产成果!

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第5张

预印本链接:https://arxiv.org/abs/2211.15029

最初,扩散模型在图像生成领域崭露头角。

在图像生成中,扩散模型首先对图像逐步添加高斯噪声(前向过程),然后训练神经网络进行迭代去噪(反向过程)。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第6张

将这一理念应用于文本领域,意味着需要找到对文本添加噪声并分阶段消除的方法。

最简实现是基于掩码的噪声处理流程:

在前向过程中,原始文本未被破坏。在每一步迭代中,根据预设调度计划(从0%到100%),随机将一定比例的词语替换为特殊标记

在反向(去噪)过程中,训练模型根据每个预测正确原始词语。这与掩码语言模型(MLM)相似,但采用动态掩码率

为应对以往方法的局限,BERT提出了掩码语言建模(Masked LM)。

具体操作是:对每条训练输入序列随机遮盖15%的词语,仅对这些被遮盖的词进行预测。用图示语言表达即:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第7张

换言之,BERT的MLM训练目标,实际可视为文本扩散的一个特例,仅使用固定掩码率。

而只要引入从0到1的动态掩码率范围,即可将BERT的训练目标自然扩展为完整文本生成过程。

扩展无处不在:自监督模型向生成模型转型

2019年发布的RoBERTa模型,是对原始BERT的一次强力升级。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第8张

预印本:https://arxiv.org/abs/1907.11692

它调整了超参数、扩展了训练语料,并精简了训练目标——

仅保留MLM(掩码语言建模),移除了「下一句预测」任务。

Nathan Barry利用HuggingFace开源库,加载RoBERTa预训练权重、分词器及Trainer类,对模型微调,数据集选用WikiText。核心代码(完整代码见原文)大致如下:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第9张

当前实现中,设定了10个扩散步骤,每个训练批次随机采样一个遮盖比例p,从 [1.0, 0.9, ..., 0.1] 中选取,并对该比例Token进行掩码处理。此逻辑封装于自定义diffusion_collator 中:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第10张

推理时,从长度为256的输入向量开始:前16个位置为提示词(prompt)的Token ID,后240个全为 。随后,逐步降低掩码比例,每一步进行预测、采样、重新掩码。流程如下:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第11张

对应简化代码如下:

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第12张

在H200显卡上,经30分钟训练后,模型基于以下提示词生成文本:

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officialsadministered British Ireland, a Celtic empire under the control of the Irishnationalist authorities, defined as a dominion of Britain. As the newly Forticstates acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in1890, led by the support of settlers from the Irish colonies. Looking inwards,Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示词为:Following their victory in the French and Indian War, Britain began to assert greater...

生成文本展现出惊人连贯性!其中多数「异常点」,Nathan Barry归因于WikiText数据集自身格式化问题——如标点符号前后带空格,连字符「-」处理为@-@等。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第13张

数据显示,GPT-2在输出连贯性和生成速度上稍占优势(约9秒对比13秒)。

但RoBERTa Diffusion未经优化,有此表现,已令人振奋。

此次概念验证无疑非常成功——若能结合AR-Diffusion、跳跃步扩散等新技术并深度优化,生成质量与推理速度均将实现跨越式提升。

扩散模型复兴

实验证明,以RoBERTa为代表的掩码语言模型(原专为填空任务设计),将变比率掩码重构为离散扩散过程,完全可转型为全功能生成引擎。

通过渐进式植入标记污染文本,并训练模型在递增掩码强度下迭代去噪,标准MLM目标成功转化为渐进式文本生成流程。

值得注意的是,即使不调整模型架构,仅对训练目标微调后的RoBERTa就能生成视觉连贯文本。

这有力印证关键洞见:本质上,BERT系模型就是在固定掩码率上训练的文本扩散模型。

Karpathy赞赏Nathan Barry的短文:

帖子虽短,却阐明文本(离散)扩散模型可如此简洁。

……

许多扩散模型论文看似晦涩,但若剥离数学形式外壳,最终得到往往是简洁基础算法。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第14张

例如在连续空间中更接近流匹配的方法,或如此类离散空间方案,其本质仍是经典Transformer架构,仅采用双向注意力机制——

根据噪声调度计划,在「token画布」上迭代重采样和重复掩码处理所有token,直至最终步生成完整样本。

自回归生成过程,犹如在Token画布上不断.append(token),每次仅参考左侧已有上下文;

而扩散式生成,则是在整个Token画布上反复.setitem(idx, token),每次都依赖双向注意力进行刷新更新。

从整个大语言模型(LLM)技术栈视角看,生成领域仍大有可为,存在优化与创新空间。

今年较早时,在2025 I/O大会上,谷歌DeepMind发布了一项实验性扩展语言模型——Gemini Diffusion。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第15张

在速度上,扩散语言模型优势显著。以致有网友预测:文本扩展模型就是众人忽视的下一步,因训练成本过高!

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第16张

而「蓝色巨人」IBM的作者也断言,随着下一代AI浮现,扩散模型将挑战GPT。

从BERT到文本扩散:RoBERTa的生成模型转化与Karpathy的深度思考 BERT 扩散模型 文本生成 RoBERTa 第17张

参考资料:

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901