Karpathy无法抗拒的吸引力!
苹果公司前员工、德克萨斯大学奥斯汀分校(UT Austin)的计算机科学研究生Nathan Barry,揭示了一个惊人发现:
BERT在本质上,仅仅是文本扩散过程中的一个关键步骤!
基于「增强版BERT」RoBERTa,他成功将表示学习算法转型为生成式算法:
阅读帖子后,OpenAI创始成员、特斯拉前AI总监Karpathy深入思考:
人类思维可能更倾向于自回归方式——逐步推进的逻辑。但在思维的潜在空间中,未必不存在类似扩散的机制。
或许在两者之间,可以进行插值处理,甚至进一步泛化。
这部分生成逻辑在大型语言模型架构中,仍然是一个相对「灵活」的组件。
不过,Karpathy近期专注于为Eureka Labs的《LLM 101n》课程开发终极实践项目「100美元构建家用ChatGPT」,因此他只能「暂时搁置」:
现在我必须抑制用扩散模型训练nanochat的冲动,避免偏离主线程去探索支线任务。
顺便一提,当天稍后,他又被DeepSeek-OCR激发了新灵感。
初次阅读语言扩散模型论文时,Nathan Barry惊讶地发现它们的训练目标仅是掩码语言建模(masked language model,MLM)的一种扩展形式。
自2018年BERT问世以来,业界早已对掩码语言建模司空见惯。
预印本:https://arxiv.org/abs/1810.04805
他脑海中立即浮现一个设想:能否对类似BERT的模型进行微调,使其具备文本生成能力?
出于好奇,他进行了快速验证实验。随后,他发现早有研究者先行一步——DiffusionBERT基本实现了这一构想,且方法更为系统。
值得注意的是,约三年前,DiffusionBERT由国内高校的研究团队提出,纯国产成果!
预印本链接:https://arxiv.org/abs/2211.15029
最初,扩散模型在图像生成领域崭露头角。
在图像生成中,扩散模型首先对图像逐步添加高斯噪声(前向过程),然后训练神经网络进行迭代去噪(反向过程)。
将这一理念应用于文本领域,意味着需要找到对文本添加噪声并分阶段消除的方法。
最简实现是基于掩码的噪声处理流程:
在前向过程中,原始文本未被破坏。在每一步迭代中,根据预设调度计划(从0%到100%),随机将一定比例的词语替换为特殊
在反向(去噪)过程中,训练模型根据每个
为应对以往方法的局限,BERT提出了掩码语言建模(Masked LM)。
具体操作是:对每条训练输入序列随机遮盖15%的词语,仅对这些被遮盖的词进行预测。用图示语言表达即:
换言之,BERT的MLM训练目标,实际可视为文本扩散的一个特例,仅使用固定掩码率。
而只要引入从0到1的动态掩码率范围,即可将BERT的训练目标自然扩展为完整文本生成过程。
2019年发布的RoBERTa模型,是对原始BERT的一次强力升级。
预印本:https://arxiv.org/abs/1907.11692
它调整了超参数、扩展了训练语料,并精简了训练目标——
仅保留MLM(掩码语言建模),移除了「下一句预测」任务。
Nathan Barry利用HuggingFace开源库,加载RoBERTa预训练权重、分词器及Trainer类,对模型微调,数据集选用WikiText。核心代码(完整代码见原文)大致如下:
当前实现中,设定了10个扩散步骤,每个训练批次随机采样一个遮盖比例p,从 [1.0, 0.9, ..., 0.1] 中选取,并对该比例Token进行掩码处理。此逻辑封装于自定义diffusion_collator 中:
推理时,从长度为256的输入向量开始:前16个位置为提示词(prompt)的Token ID,后240个全为
对应简化代码如下:
在H200显卡上,经30分钟训练后,模型基于以下提示词生成文本:
...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officialsadministered British Ireland, a Celtic empire under the control of the Irishnationalist authorities, defined as a dominion of Britain. As the newly Forticstates acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in1890, led by the support of settlers from the Irish colonies. Looking inwards,Sinclair, Lewis questioned, and debated the need to describe " The New Britain "
提示词为:Following their victory in the French and Indian War, Britain began to assert greater...
生成文本展现出惊人连贯性!其中多数「异常点」,Nathan Barry归因于WikiText数据集自身格式化问题——如标点符号前后带空格,连字符「-」处理为@-@等。
数据显示,GPT-2在输出连贯性和生成速度上稍占优势(约9秒对比13秒)。
但RoBERTa Diffusion未经优化,有此表现,已令人振奋。
此次概念验证无疑非常成功——若能结合AR-Diffusion、跳跃步扩散等新技术并深度优化,生成质量与推理速度均将实现跨越式提升。
实验证明,以RoBERTa为代表的掩码语言模型(原专为填空任务设计),将变比率掩码重构为离散扩散过程,完全可转型为全功能生成引擎。
通过渐进式植入
值得注意的是,即使不调整模型架构,仅对训练目标微调后的RoBERTa就能生成视觉连贯文本。
这有力印证关键洞见:本质上,BERT系模型就是在固定掩码率上训练的文本扩散模型。
Karpathy赞赏Nathan Barry的短文:
帖子虽短,却阐明文本(离散)扩散模型可如此简洁。
……
许多扩散模型论文看似晦涩,但若剥离数学形式外壳,最终得到往往是简洁基础算法。
例如在连续空间中更接近流匹配的方法,或如此类离散空间方案,其本质仍是经典Transformer架构,仅采用双向注意力机制——
根据噪声调度计划,在「token画布」上迭代重采样和重复掩码处理所有token,直至最终步生成完整样本。
自回归生成过程,犹如在Token画布上不断.append(token),每次仅参考左侧已有上下文;
而扩散式生成,则是在整个Token画布上反复.setitem(idx, token),每次都依赖双向注意力进行刷新更新。
从整个大语言模型(LLM)技术栈视角看,生成领域仍大有可为,存在优化与创新空间。
今年较早时,在2025 I/O大会上,谷歌DeepMind发布了一项实验性扩展语言模型——Gemini Diffusion。
在速度上,扩散语言模型优势显著。以致有网友预测:文本扩展模型就是众人忽视的下一步,因训练成本过高!
而「蓝色巨人」IBM的作者也断言,随着下一代AI浮现,扩散模型将挑战GPT。
参考资料:
https://nathan.rs/posts/roberta-diffusion/
https://x.com/karpathy/status/1980347971935068380
https://x.com/yacinelearning/status/1980351871413022901
本文由主机测评网于2026-01-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118913.html