AI底层规则面临重塑,当模型能先构思再表达,这究竟还是概率鹦鹉的进阶吗?
Transformer堪称LLM的基石,但这一基石或将松动!
持续8年的Transformer底层架构似乎即将被Meta革新。
Meta推出的「Free Transformer」新模型在AI架构领域引发了社交媒体的热议。
首次突破了自2017年以来所有GPT模型的核心规则:不再是一味地逐token生成,而是能够「预先思考」。
论文地址:https://arxiv.org/pdf/2510.17558
研究者在解码器中引入了潜在随机变量Z,让模型在输出前进行内部采样与规划,相当于为Transformer增加了一层「潜意识」。
这一创新仅增加了约3%的计算开销,却显著提升了模型在推理与结构化生成上的表现,在GSM8K、MMLU、HumanEval等测试中超越了更大规模的模型。
Meta称,这可能是第一种「有内在意图」的Transformer。
Meta在解码器中加入了潜在随机变量(Z)。
可以将其视为生成文本前的「潜意识层」,模型会采样内部选择来引导整个序列的风格或结构。
从技术上讲,这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的。
Meta将其命名为Free Transformer。
不同Transformer架构如何处理名为Z的随机隐藏状态。
图中第一个展示的是标准Transformer,仅根据前序token预测下一个token。
第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。
第三种架构名为Free Transformer,简化了这一过程。它直接在模型中间层注入随机状态,而非使用独立的全编码器。在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。
在推理过程中,编码器被跳过,随机状态Z被直接采样。
这种设计使模型能够早期做出全局决策,帮助它在没有太多额外计算的情况下产生更一致和稳定的输出。
因此,一半模块充当共享编码器,其余模块则基于该潜在上下文进行解码。
在常规设置中,若使用随机隐藏状态,每次生成文本时都必须同时使用编码器和解码器。这会使成本翻倍。
自由变换器避免了这一点。它在训练过程中学习共享的内部结构,之后便丢弃编码器。在推理时,它直接采样隐藏状态并仅运行解码器。
与标准模型相比,这种设计仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担。
它采用经典的VAE目标进行训练:
交叉熵损失+编码器分布 Q(Z|S)与先验 P(Z)之间的KL散度惩罚项。
Meta使用自由比特阈值(κ)来防止崩溃,仅在散度>κ时添加KL损失。这使得Z能够编码有用结构(如主题、情感或模式位置)而不会过拟合。
采用KL散度惩罚结合自由比特方法,防止隐状态记忆整个序列。该架构在堆叠层中部注入隐状态:将学习得到的向量添加到键值中,随后正常继续解码过程。
每个token对应的隐状态从65536种可能性中选取,由16个独立比特构建而成。
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543311.html