当前位置:首页 > 科技资讯 > 正文

MoR架构崛起:深度学习模型的新革命

【导读】深度学习界迎来新风暴!KAIST、谷歌DeepMind等机构联合发布的MoR架构,或将彻底重塑LLM性能边界,挑战传统Transformer的霸主地位。

就在近日,来自KAIST、Mila和谷歌DeepMind的研究团队,发布了一项震撼业界的成果——

一种名为Mixture-of-Recursions(MoR)的全新LLM模型架构。

该架构被誉为具有颠覆Transformer的潜力,引发了业界的广泛关注与热议。

MoR在推理速度上实现了翻倍,内存占用减少,直接刷新了LLM的性能记录,全面超越了传统的Transformer。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第1张

论文链接:https://arxiv.org/abs/2507.10524

实际上,学界早已意识到Transformer的复杂度过高,对算力的需求惊人。

例如,CMU的Albert Gu曾指出,Transformer模型的局限性太大,所谓的token纯属空谈。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第2张

而谷歌产品负责人Logan Kilpatrick也公开批评了注意力机制的缺陷,强调必须在核心架构上进行创新。

此次谷歌DeepMind的研究,与这些权威观点不谋而合。

网友们纷纷表示,这简直是炸裂性的进展。

有人预测,潜在空间推理可能会带来下一次重大突破。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第3张

显然,对于代码、数学、逻辑等分层分解任务,MoR无疑是一个游戏规则改变者。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第4张

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第5张

谷歌DeepMind放大招:递归魔法让LLM提速又瘦身

LLM如何进一步发展?是继续堆叠参数、增加层数,让它变得更聪明吗?

这项研究告诉我们:真正的高手,从不靠堆砌,而是靠设计艺术。

MoR的全新架构,通过递归混合,直接让LLM的推理速度翻倍!

那么,MoR究竟做了什么呢?

1. 不平等对待每个token

LLM在处理文本时,会将句子拆分成一个个token。但像“的”、“是”、“在”这样的词,只需一次前向传播即可。而复杂的token则需要多次经过同一层栈。

MoR的独到之处在于因token而异。它利用小型路由器为每个token的隐藏状态打分,只有高分的token会继续循环,其余的则提前退出。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第6张

真自适应计算

仅靠Scaling law扩大语言模型规模,确实能提升能力,但所需的算力和成本也水涨船高。

“递归混合”(Mixture-of-Recursions, MoR)成功融合了递归Transformer的潜力(见图1),实现了参数共享和按需计算。

MoR架构崛起:深度学习模型的新革命 MoR架构 深度学习 Transformer杀手 性能优化 第7张

递归混合架构

路由机制:专家选择与token选择

KV缓存策略:按递归层缓存与跨层共享

实验

主要结果

在相同训练计算预算下,MoR以更少参数优于基线模型

在相同数据量下,MoR用更少计算量仍优于基线模型

IsoFLOP分析

推理吞吐量评估