当前位置：首页 > 科技资讯 > 正文

谷歌新架构MoR：超越Transformer的效率革命

主机测评网
科技资讯
2026-04-15
260

谷歌超越Transformer，推出全新底层架构——Mixture-of-Recursions（MoR），它不仅是MoE的进化，更实现了推理速度翻倍，而KV内存直接减半的壮举！

MoR不仅All in One，首次在单一框架中，用同一组参数处理不同任务，同时动态分配计算资源，为LLM带来性能与效率的双重提升。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第1张

谷歌DeepMind携手KAIST AI、Mila团队，通过统一参数共享、自适应递归深度和高效KV缓存策略，实现了大模型性能与计算和内存成本之间的新平衡。

一些网友甚至称其为Transformer Killer。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第2张

更有专家预测，该架构可能引领潜在空间推理成为LLM的下一个突破点。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第3张

那么，MoR究竟在哪些方面实现了创新呢？让我们一探究竟。

MoR：统一参数共享与自适应计算的先驱

尽管Transformer展现了卓越的少样本泛化和推理能力，但其庞大的计算和内存需求仍是训练和部署的难题。

以往优化方法多聚焦于参数共享或自适应计算，却难以兼顾。而MoR，在单一递归Transformer中融合了这两个效率维度。

通过递归Transformer，将模型划分为递归块，复用一组共享参数池，相比标准Transformer，减少了独特参数数量，提升了分布式训练效率。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第4张

主要采取三种参数共享策略：

Cycle：循环复用层。
Sequence：连续复用同一层。
Middle变体：仅共享中间层，保留首尾层独特参数。

此外，MoR采用动态路由机制，通过轻量级路由器为每token分配不同递归深度，集中计算于复杂token，包括：

Expert-choice路由：将每个递归步骤视作“专家”，基于隐藏状态计算分数，通过阈值选择token继续计算。
Token-choice路由：初始阶段为每token分配固定递归深度，通过softmax/sigmoid确定专家。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第5张

MoR还借助KV缓存策略提升内存效率：

Recursion-wise缓存：仅缓存当前递归步骤中活跃token的KV对。
Recursive KV共享：复用首次递归的KV对供后续步骤使用。

谷歌新架构MoR：超越Transformer的效率革命 MoR Transformer 效率革命底层架构第6张

在三种策略协同下，MoR实现潜在思考，突破固定思考深度限制，达成参数效率与自适应计算的统一。

性能超越Transformer

研究人员在不同参数规模的模型上进行了对比实验，结果显示，在相同FLOPs预算下，MoR使用更少参数实现了更低的验证损失和更高的少样本准确率。此外，MoR在训练时间和内存使用方面也表现出色。

谷歌对底层架构的再思考

谷歌对底层架构的不断探索和创新体现了其利用架构创新重构计算范式的决心。从混合专家模型（MoE）到GShard、Switch Transformer等，谷歌始终在寻找AI的新平衡。

服务器教程云服务器免费服务器

本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260437494.html

上一篇
服务器CPU优化技术教程

下一篇
AI玩具高退货率挑战重重，市场期待新突破

相关文章

新能源车取代燃油车：非线性进程与多维挑战

私募信贷市场动荡：信心崩塌与风险蔓延

字节推出红烛小说，付费网文赛道再添新丁

“活人感”品牌营销：影石等品牌的成功之道

元宇宙梦碎，Meta转向AI，扎克伯格的赌注能翻盘吗？

国产大模型IPO冲刺：智谱与MiniMax的赛道挑战

抖音小游戏：内容驱动社交，生态赋能新纪元

三星迎战iPhone Fold：2026年秋季推出“阔折叠”手机