谷歌超越Transformer,推出全新底层架构——Mixture-of-Recursions(MoR),它不仅是MoE的进化,更实现了推理速度翻倍,而KV内存直接减半的壮举!
MoR不仅All in One,首次在单一框架中,用同一组参数处理不同任务,同时动态分配计算资源,为LLM带来性能与效率的双重提升。
谷歌DeepMind携手KAIST AI、Mila团队,通过统一参数共享、自适应递归深度和高效KV缓存策略,实现了大模型性能与计算和内存成本之间的新平衡。
一些网友甚至称其为Transformer Killer。
更有专家预测,该架构可能引领潜在空间推理成为LLM的下一个突破点。
那么,MoR究竟在哪些方面实现了创新呢?让我们一探究竟。
尽管Transformer展现了卓越的少样本泛化和推理能力,但其庞大的计算和内存需求仍是训练和部署的难题。
以往优化方法多聚焦于参数共享或自适应计算,却难以兼顾。而MoR,在单一递归Transformer中融合了这两个效率维度。
通过递归Transformer,将模型划分为递归块,复用一组共享参数池,相比标准Transformer,减少了独特参数数量,提升了分布式训练效率。
主要采取三种参数共享策略:
此外,MoR采用动态路由机制,通过轻量级路由器为每token分配不同递归深度,集中计算于复杂token,包括:
MoR还借助KV缓存策略提升内存效率:
研究人员在不同参数规模的模型上进行了对比实验,结果显示,在相同FLOPs预算下,MoR使用更少参数实现了更低的验证损失和更高的少样本准确率。此外,MoR在训练时间和内存使用方面也表现出色。
谷歌对底层架构的不断探索和创新体现了其利用架构创新重构计算范式的决心。从混合专家模型(MoE)到GShard、Switch Transformer等,谷歌始终在寻找AI的新平衡。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437494.html