Free Transformer重塑AI架构：从预测到决策

主机测评网
科技资讯
2026-05-07
134

AI底层规则面临重塑，当模型能先构思再表达，这究竟还是概率鹦鹉的进阶吗？

Transformer堪称LLM的基石，但这一基石或将松动！

持续8年的Transformer底层架构似乎即将被Meta革新。

Meta推出的「Free Transformer」新模型在AI架构领域引发了社交媒体的热议。

首次突破了自2017年以来所有GPT模型的核心规则：不再是一味地逐token生成，而是能够「预先思考」。

Free Transformer重塑AI架构：从预测到决策 Transformer AI架构潜在随机变量Z 后自回归时代第1张

论文地址：https://arxiv.org/pdf/2510.17558

研究者在解码器中引入了潜在随机变量Z，让模型在输出前进行内部采样与规划，相当于为Transformer增加了一层「潜意识」。

这一创新仅增加了约3%的计算开销，却显著提升了模型在推理与结构化生成上的表现，在GSM8K、MMLU、HumanEval等测试中超越了更大规模的模型。

Meta称，这可能是第一种「有内在意图」的Transformer。

用潜在随机变量打造机器的「潜意识」

Meta在解码器中加入了潜在随机变量(Z)。

可以将其视为生成文本前的「潜意识层」，模型会采样内部选择来引导整个序列的风格或结构。

从技术上讲，这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的。

Meta将其命名为Free Transformer。

Free Transformer重塑AI架构：从预测到决策 Transformer AI架构潜在随机变量Z 后自回归时代第2张

不同Transformer架构如何处理名为Z的随机隐藏状态。

图中第一个展示的是标准Transformer，仅根据前序token预测下一个token。

第二个架构增加了随机状态Z，并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

第三种架构名为Free Transformer，简化了这一过程。它直接在模型中间层注入随机状态，而非使用独立的全编码器。在训练过程中，编码器仍被使用一次，以帮助模型学会如何选取良好的隐藏状态，但它仅与网络的一部分协同工作。

在推理过程中，编码器被跳过，随机状态Z被直接采样。

这种设计使模型能够早期做出全局决策，帮助它在没有太多额外计算的情况下产生更一致和稳定的输出。

因此，一半模块充当共享编码器，其余模块则基于该潜在上下文进行解码。

在常规设置中，若使用随机隐藏状态，每次生成文本时都必须同时使用编码器和解码器。这会使成本翻倍。

自由变换器避免了这一点。它在训练过程中学习共享的内部结构，之后便丢弃编码器。在推理时，它直接采样隐藏状态并仅运行解码器。

与标准模型相比，这种设计仅增加约3-4%的FLOPs计算开销，大幅降低了计算负担。

Free Transformer重塑AI架构：从预测到决策 Transformer AI架构潜在随机变量Z 后自回归时代第3张