当前位置：首页 > 科技资讯 > 正文

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer

主机测评网
科技资讯
2026-01-12
675

尽管苹果在人工智能领域常被认为进展缓慢，但其最新研究直指Transformer架构的核心挑战。（doge）

「Mamba+工具」的组合，在Agent应用场景中展现出更强竞争力！

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第1张

在最新论文《To Infinity and Beyond》中，研究团队观察到：

在长周期、多交互的Agent式任务中，基于SSM架构（状态空间模型）的模型，如Mamba，在效率和泛化能力上，表现出超越Transformer的潜力。

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第2张

Mamba的第一作者对此评论道：

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第3张

这一超越Transformer的表现如何解释？

Transformer的长序列处理瓶颈

先分析Transformer的“高成本问题”。

Transformer依赖自注意力机制，能同时关注输入序列中所有词汇间的关联，例如在阅读时快速链接首尾关键点。

但这种能力需要高昂计算代价，随着输入序列增长，计算量呈平方级上升。

例如，处理1000个词时，需计算1000×1000=100万次词对关系；

若处理包含数万词的长文档，计算量可达亿级，对普通GPU构成重负。

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第4张

计算成本过高引发连锁反应：

首先，处理延迟显著增加。在长序列任务中，模型响应速度大幅下降；
其次，在Agent类任务中表现不足。Agent任务常需动态决策与迭代优化，而Transformer每一步都需重算全局注意力，导致效率低下，难以满足实时性需求。

相比之下，Mamba采用更轻量设计。

「Mamba+工具」实现高效处理

作为状态空间模型（SSM），Mamba不依赖全局注意力，而是通过持续更新的内部状态解析输入。

类似人类记流水账，只关注近期进展，不回溯旧账。

这种机制带来三大优势：

计算量随序列长度线性增长

例如处理1000个词仅需对应量级计算，远低于Transformer；

支持流式处理

能边接收输入边计算，无需等待完整序列；

内存占用稳定

不随序列长度显著增加，效率突出。

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第5张

但Mamba有局限：内部状态存储有限，处理超长序列时早期信息易被覆盖，导致记忆前文能力弱。

针对此，苹果团队提出新方案——通过引入外部工具扩展模型信息处理能力。

例如数学计算中用指针工具记录数字和进位；代码修复中用文件查看工具反复读代码、用运行工具测报错……

这些工具在任务中提供辅助，相当于为模型添加可动态调用的外部存储和交互接口。

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第6张

引入工具后，Mamba性能显著提升：

在多位数加法中，配备指针工具的Mamba展现良好泛化，经5位数训练后能稳定处理1000位数，准确率近100%，而Transformer处理20位数时误差明显；

在代码调试中，让Mamba模拟交互式调试流程（查看文件、局部修改、执行验证迭代），面对高复杂度代码库，其正确率高于Transformer；

在逻辑推理及汉诺塔等需分步规划任务中，结合工具的Mamba能应对更复杂场景，Transformer则要么慢速，要么卡顿……

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer Mamba Transformer Agent 状态空间模型第7张

可见，Transformer智能但缓慢，做事追求一步到位，遇需反复调整的Agent任务时显得昂贵笨重；

Mamba反应快但记忆短，通过外置大脑补足记忆后，效率大幅提升。

因此，「Mamba+工具」组合可能在Agent场景中取代Transformer的领先地位。

论文地址

https://arxiv.org/pdf/2510.14826

参考链接

https://x.com/_albertgu/status/1980287154883358864

服务器教程阿里云服务器性价比服务器

本文由主机测评网于2026-01-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116988.html

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer

Transformer的长序列处理瓶颈

「Mamba+工具」实现高效处理

论文地址

参考链接

HarmonyOS SDK入门指南（初识HarmonyOS SDK教程）

自签永久免费HTTPS证书指南

苹果新研究：Mamba模型结合工具，在Agent任务中超越Transformer

Transformer的长序列处理瓶颈

「Mamba+工具」实现高效处理

论文地址

参考链接

HarmonyOS SDK入门指南（初识HarmonyOS SDK教程）

自签永久免费HTTPS证书指南

相关文章