当前位置:首页 > 科技资讯 > 正文

Free Transformer重塑AI架构:从预测到决策

AI底层规则面临重塑,当模型能先构思再表达,这究竟还是概率鹦鹉的进阶吗?

Transformer堪称LLM的基石,但这一基石或将松动!

持续8年的Transformer底层架构似乎即将被Meta革新。

Meta推出的「Free Transformer」新模型在AI架构领域引发了社交媒体的热议。

首次突破了自2017年以来所有GPT模型的核心规则:不再是一味地逐token生成,而是能够「预先思考」

Free Transformer重塑AI架构:从预测到决策 Transformer AI架构 潜在随机变量Z 后自回归时代 第1张

论文地址:https://arxiv.org/pdf/2510.17558

研究者在解码器中引入了潜在随机变量Z,让模型在输出前进行内部采样与规划,相当于为Transformer增加了一层「潜意识」

这一创新仅增加了约3%的计算开销,却显著提升了模型在推理与结构化生成上的表现,在GSM8K、MMLU、HumanEval等测试中超越了更大规模的模型。

Meta称,这可能是第一种「有内在意图」的Transformer。

用潜在随机变量打造机器的「潜意识」

Meta在解码器中加入了潜在随机变量(Z)。

可以将其视为生成文本前的「潜意识层」,模型会采样内部选择来引导整个序列的风格或结构。

从技术上讲,这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的。

Meta将其命名为Free Transformer。

Free Transformer重塑AI架构:从预测到决策 Transformer AI架构 潜在随机变量Z 后自回归时代 第2张

不同Transformer架构如何处理名为Z的随机隐藏状态。

图中第一个展示的是标准Transformer,仅根据前序token预测下一个token。

第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

第三种架构名为Free Transformer,简化了这一过程。它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。

在推理过程中,编码器被跳过,随机状态Z被直接采样。

这种设计使模型能够早期做出全局决策,帮助它在没有太多额外计算的情况下产生更一致和稳定的输出。

因此,一半模块充当共享编码器,其余模块则基于该潜在上下文进行解码。

在常规设置中,若使用随机隐藏状态,每次生成文本时都必须同时使用编码器和解码器。这会使成本翻倍。

自由变换器避免了这一点。它在训练过程中学习共享的内部结构,之后便丢弃编码器。在推理时,它直接采样隐藏状态并仅运行解码器。

与标准模型相比,这种设计仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担。

Free Transformer重塑AI架构:从预测到决策 Transformer AI架构 潜在随机变量Z 后自回归时代 第3张

它采用经典的VAE目标进行训练:

交叉熵损失+编码器分布 Q(Z|S)与先验 P(Z)之间的KL散度惩罚项。

Meta使用自由比特阈值(κ)来防止崩溃,仅在散度>κ时添加KL损失。这使得Z能够编码有用结构(如主题、情感或模式位置)而不会过拟合。

采用KL散度惩罚结合自由比特方法,防止隐状态记忆整个序列。该架构在堆叠层中部注入隐状态:将学习得到的向量添加到键值中,随后正常继续解码过程。

每个token对应的隐状态从65536种可能性中选取,由16个独立比特构建而成。

Free Transformer重塑AI架构:从预测到决策 Transformer AI架构 潜在随机变量Z 后自回归时代 第4张

潜在变量Z到底学到了什么?

Free Transformer重塑AI架构:从预测到决策 Transformer AI架构 潜在随机变量Z 后自回归时代 第5张