当前位置：首页 > 科技资讯 > 正文

MoR架构崛起：深度学习模型的新革命

【导读】深度学习界迎来新风暴！KAIST、谷歌DeepMind等机构联合发布的MoR架构，或将彻底重塑LLM性能边界，挑战传统Transformer的霸主地位。

就在近日，来自KAIST、Mila和谷歌DeepMind的研究团队，发布了一项震撼业界的成果——

一种名为Mixture-of-Recursions（MoR）的全新LLM模型架构。

该架构被誉为具有颠覆Transformer的潜力，引发了业界的广泛关注与热议。

MoR在推理速度上实现了翻倍，内存占用减少，直接刷新了LLM的性能记录，全面超越了传统的Transformer。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第1张

实际上，学界早已意识到Transformer的复杂度过高，对算力的需求惊人。

例如，CMU的Albert Gu曾指出，Transformer模型的局限性太大，所谓的token纯属空谈。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第2张

而谷歌产品负责人Logan Kilpatrick也公开批评了注意力机制的缺陷，强调必须在核心架构上进行创新。

此次谷歌DeepMind的研究，与这些权威观点不谋而合。

网友们纷纷表示，这简直是炸裂性的进展。

有人预测，潜在空间推理可能会带来下一次重大突破。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第3张

显然，对于代码、数学、逻辑等分层分解任务，MoR无疑是一个游戏规则改变者。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第4张

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第5张

谷歌DeepMind放大招：递归魔法让LLM提速又瘦身

LLM如何进一步发展？是继续堆叠参数、增加层数，让它变得更聪明吗？

这项研究告诉我们：真正的高手，从不靠堆砌，而是靠设计艺术。

MoR的全新架构，通过递归混合，直接让LLM的推理速度翻倍！

那么，MoR究竟做了什么呢？

1. 不平等对待每个token

LLM在处理文本时，会将句子拆分成一个个token。但像“的”、“是”、“在”这样的词，只需一次前向传播即可。而复杂的token则需要多次经过同一层栈。

MoR的独到之处在于因token而异。它利用小型路由器为每个token的隐藏状态打分，只有高分的token会继续循环，其余的则提前退出。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第6张

仅靠Scaling law扩大语言模型规模，确实能提升能力，但所需的算力和成本也水涨船高。

“递归混合”（Mixture-of-Recursions, MoR）成功融合了递归Transformer的潜力（见图1），实现了参数共享和按需计算。

MoR架构崛起：深度学习模型的新革命 MoR架构深度学习 Transformer杀手性能优化第7张

本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260437427.html