【导读】深度学习界迎来新风暴!KAIST、谷歌DeepMind等机构联合发布的MoR架构,或将彻底重塑LLM性能边界,挑战传统Transformer的霸主地位。
就在近日,来自KAIST、Mila和谷歌DeepMind的研究团队,发布了一项震撼业界的成果——
一种名为Mixture-of-Recursions(MoR)的全新LLM模型架构。
该架构被誉为具有颠覆Transformer的潜力,引发了业界的广泛关注与热议。
MoR在推理速度上实现了翻倍,内存占用减少,直接刷新了LLM的性能记录,全面超越了传统的Transformer。
论文链接:https://arxiv.org/abs/2507.10524
实际上,学界早已意识到Transformer的复杂度过高,对算力的需求惊人。
例如,CMU的Albert Gu曾指出,Transformer模型的局限性太大,所谓的token纯属空谈。
而谷歌产品负责人Logan Kilpatrick也公开批评了注意力机制的缺陷,强调必须在核心架构上进行创新。
此次谷歌DeepMind的研究,与这些权威观点不谋而合。
网友们纷纷表示,这简直是炸裂性的进展。
有人预测,潜在空间推理可能会带来下一次重大突破。
显然,对于代码、数学、逻辑等分层分解任务,MoR无疑是一个游戏规则改变者。
LLM如何进一步发展?是继续堆叠参数、增加层数,让它变得更聪明吗?
这项研究告诉我们:真正的高手,从不靠堆砌,而是靠设计艺术。
MoR的全新架构,通过递归混合,直接让LLM的推理速度翻倍!
那么,MoR究竟做了什么呢?
1. 不平等对待每个token
LLM在处理文本时,会将句子拆分成一个个token。但像“的”、“是”、“在”这样的词,只需一次前向传播即可。而复杂的token则需要多次经过同一层栈。
MoR的独到之处在于因token而异。它利用小型路由器为每个token的隐藏状态打分,只有高分的token会继续循环,其余的则提前退出。
仅靠Scaling law扩大语言模型规模,确实能提升能力,但所需的算力和成本也水涨船高。
“递归混合”(Mixture-of-Recursions, MoR)成功融合了递归Transformer的潜力(见图1),实现了参数共享和按需计算。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437427.html