当前位置:首页 > 科技资讯 > 正文

谷歌新架构MoR:超越Transformer的效率革命

谷歌超越Transformer,推出全新底层架构——Mixture-of-Recursions(MoR),它不仅是MoE的进化,更实现了推理速度翻倍,而KV内存直接减半的壮举!

MoR不仅All in One,首次在单一框架中,用同一组参数处理不同任务,同时动态分配计算资源,为LLM带来性能与效率的双重提升。

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第1张

谷歌DeepMind携手KAIST AI、Mila团队,通过统一参数共享自适应递归深度高效KV缓存策略,实现了大模型性能与计算和内存成本之间的新平衡。

一些网友甚至称其为Transformer Killer

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第2张

更有专家预测,该架构可能引领潜在空间推理成为LLM的下一个突破点。

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第3张

那么,MoR究竟在哪些方面实现了创新呢?让我们一探究竟。

MoR:统一参数共享与自适应计算的先驱

尽管Transformer展现了卓越的少样本泛化和推理能力,但其庞大的计算和内存需求仍是训练和部署的难题。

以往优化方法多聚焦于参数共享或自适应计算,却难以兼顾。而MoR,在单一递归Transformer中融合了这两个效率维度。

通过递归Transformer,将模型划分为递归块,复用一组共享参数池,相比标准Transformer,减少了独特参数数量,提升了分布式训练效率。

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第4张

主要采取三种参数共享策略:

  1. Cycle:循环复用层。
  2. Sequence:连续复用同一层。
  3. Middle变体:仅共享中间层,保留首尾层独特参数。

此外,MoR采用动态路由机制,通过轻量级路由器为每token分配不同递归深度,集中计算于复杂token,包括:

  • Expert-choice路由:将每个递归步骤视作“专家”,基于隐藏状态计算分数,通过阈值选择token继续计算。
  • Token-choice路由:初始阶段为每token分配固定递归深度,通过softmax/sigmoid确定专家。

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第5张

MoR还借助KV缓存策略提升内存效率:

  • Recursion-wise缓存:仅缓存当前递归步骤中活跃token的KV对。
  • Recursive KV共享:复用首次递归的KV对供后续步骤使用。

谷歌新架构MoR:超越Transformer的效率革命 MoR Transformer 效率革命 底层架构 第6张

在三种策略协同下,MoR实现潜在思考,突破固定思考深度限制,达成参数效率与自适应计算的统一。

性能超越Transformer

研究人员在不同参数规模的模型上进行了对比实验,结果显示,在相同FLOPs预算下,MoR使用更少参数实现了更低的验证损失和更高的少样本准确率。此外,MoR在训练时间和内存使用方面也表现出色。

谷歌对底层架构的再思考

谷歌对底层架构的不断探索和创新体现了其利用架构创新重构计算范式的决心。从混合专家模型(MoE)到GShard、Switch Transformer等,谷歌始终在寻找AI的新平衡。