当前位置:首页 > 科技资讯 > 正文

EBT革新AI推理:能量驱动,思维优化

UIUC、斯坦福与哈佛联手打造全新「能量驱动Transformer(EBT)」架构,突破传统前馈推理方式,以能量最小化模拟人类System 2思维,预训练扩展性能较Transformer++最高提升35%。AI基础架构即将迎来下一代变革。

在Transformer统治AI界十余年后,

Attention的时代正在退场,真正的思考才刚刚起步——

由UIUC、斯坦福、哈佛等顶尖学府携手推出的Energy-Based Transformer(EBT)震撼登场。

它首次将Transformer架构引入能量建模(Energy-Based Models, EBM)框架,彻底打破「前馈即推理」的旧范式。

EBT革新AI推理:能量驱动,思维优化 EBT 能量驱动 Transformer System 2 Thinking 第1张

论文链接:https://arxiv.org/pdf/2507.02092

EBT既不是轻量化微调,也不是RNN的改进,而是一种全新的推理机制:

模型不再一次性「给出答案」,而是像人类一样从模糊猜测出发,逐步优化推理路径。

EBT革新AI推理:能量驱动,思维优化 EBT 能量驱动 Transformer System 2 Thinking 第2张

EBT训练更高效,推理更精准,对OOD(Out of Distribution)数据更稳健,在训练效率、提升幅度等方面大幅超越前馈式Transformer(Transformer++):

EBT革新AI推理:能量驱动,思维优化 EBT 能量驱动 Transformer System 2 Thinking 第3张

并且,EBT在文本与图像等多模态任务中展现出惊人的扩展性能,有望实现无监督跨模态通用推理。

「一次生成」vs「动态优化」

传统Transformer是一种典型的「前馈预测器」,每次推理过程都是按照从输入prompt,到固定的前向传播路径,再到输出结果一次完成的。

无论问题简单还是复杂,模型都以固定的计算路径和步骤完成推理,无法因难度灵活调整。

每个token都只做一次决策,不进行「反悔」或者「修改」。

这就像一个学生答题时,只能「一遍写完不许改」。

在这种模式下,模型既不能「检查答案」,也无法「修正思路」,更谈不上「深入思考」。

EBT革新AI推理:能量驱动,思维优化 EBT 能量驱动 Transformer System 2 Thinking 第4张

而EBT彻底颠覆了这种机制。

EBT对每个预测都进行多轮优化:

  • 不直接输出token,从随机初始预测开始
  • 模型计算该预测与上下文的「能量值」(兼容性高对应能量低,兼容性差对应能量高)
  • 通过对能量的梯度下降,不断更新预测,逐步将其「调得更合适」

这个过程会持续多轮,直到能量收敛,也就是模型认为这个预测「足够合理」了。

这样EBT最后得到的每个token都是动态计算、多步修正的产物,像在能量地形图中「下山」一样逐步收敛到最优答案。

也就是说,模型的「思考」被建模成了一个小型优化任务,不是一遍完全输出答案,而是反复尝试—验证—更新—收敛。

EBT革新AI推理:能量驱动,思维优化 EBT 能量驱动 Transformer System 2 Thinking 第5张

这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢,更准,更通用的类人深度思考能力。