UIUC、斯坦福与哈佛联手打造全新「能量驱动Transformer(EBT)」架构,突破传统前馈推理方式,以能量最小化模拟人类System 2思维,预训练扩展性能较Transformer++最高提升35%。AI基础架构即将迎来下一代变革。
在Transformer统治AI界十余年后,
Attention的时代正在退场,真正的思考才刚刚起步——
由UIUC、斯坦福、哈佛等顶尖学府携手推出的Energy-Based Transformer(EBT)震撼登场。
它首次将Transformer架构引入能量建模(Energy-Based Models, EBM)框架,彻底打破「前馈即推理」的旧范式。
论文链接:https://arxiv.org/pdf/2507.02092
EBT既不是轻量化微调,也不是RNN的改进,而是一种全新的推理机制:
模型不再一次性「给出答案」,而是像人类一样从模糊猜测出发,逐步优化推理路径。
EBT训练更高效,推理更精准,对OOD(Out of Distribution)数据更稳健,在训练效率、提升幅度等方面大幅超越前馈式Transformer(Transformer++):
并且,EBT在文本与图像等多模态任务中展现出惊人的扩展性能,有望实现无监督跨模态通用推理。
传统Transformer是一种典型的「前馈预测器」,每次推理过程都是按照从输入prompt,到固定的前向传播路径,再到输出结果一次完成的。
无论问题简单还是复杂,模型都以固定的计算路径和步骤完成推理,无法因难度灵活调整。
每个token都只做一次决策,不进行「反悔」或者「修改」。
这就像一个学生答题时,只能「一遍写完不许改」。
在这种模式下,模型既不能「检查答案」,也无法「修正思路」,更谈不上「深入思考」。
而EBT彻底颠覆了这种机制。
EBT对每个预测都进行多轮优化:
这个过程会持续多轮,直到能量收敛,也就是模型认为这个预测「足够合理」了。
这样EBT最后得到的每个token都是动态计算、多步修正的产物,像在能量地形图中「下山」一样逐步收敛到最优答案。
也就是说,模型的「思考」被建模成了一个小型优化任务,不是一遍完全输出答案,而是反复尝试—验证—更新—收敛。
这个「能量最小化」的过程就是EBT前所未有的System 2 Thinking——更慢,更准,更通用的类人深度思考能力。
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436974.html