当前位置：首页 > 科技资讯 > 正文

小米大模型新突破：罗福莉引领智能体革命

主机测评网
科技资讯
2026-05-28
941

12月17日，小米隆重召开2025人车家全生态合作伙伴大会。然而，会场上的焦点却集中在了一位特别的演讲者——小米Mimo大模型负责人罗福莉。

自罗福莉低调加入小米以来，这是被业界誉为“AI天才少女”的她首次代表小米大模型团队公开亮相。而在大会前夕，小米宣布并开源了最新MoE大模型MiMo-V2-Flash，这一消息成为罗福莉演讲的核心议题。

罗福莉在开场时强调，下一代智能体系统的核心将围绕Agent执行与Omni（全能）感知，涵盖记忆、推理、自主规划、决策、执行等多个维度。她认为，智能体应从单一回答问题转向完成多样化任务，并需统一多模态感知，为理解物理世界奠定基础。

她进一步表示，MiMo-V2-Flash在研发初期，主要聚焦于三个核心问题：

首先，智能体需具备高效的沟通语言，即代码能力和工具调用能力；其次，“高带宽”是Agent协作的关键，因此需围绕极致推理效率设计模型结构；最后，模型训练范式正逐步从预训练转向后训练，为了激发后训练的更多潜能，需高效稳定地扩展强化学习训练。

小米大模型新突破：罗福莉引领智能体革命小米大模型智能体 MoE 第1张

图自界面新闻

MiMo-V2-Flash是小米最新一代面向Agent的基座模型，总参数为309B，激活参数为15B，支持256k上下文窗口。该模型针对推理、编码和Agent场景构建，支持混合思维模式，用户可在“思考”模式和即时回答模式间自由切换。

在基准测试中，MiMo-V2-Flash的表现整体接近DeepSeek-V3.2，在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹，但在HLE（人类最后的考试）及Arena-Hard（创意写作评估）两项测试中稍逊于后者。此外，该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。

作为首次公开亮相的成果，同时也是小米未来可能全面落地各个业务场景的智能体模型底座，罗福莉详细介绍了MiMo-V2-Flash的性价比优势及其技术背景。

目前，MiMo-V2-Flash的推理吞吐速度为每秒150个token，定价为0.7元/每百万输入token和2.1元/每百万输出token。

在一张价格与速度构成的坐标轴图标中显示，MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平，但价格仅为后者的约二十分之一；其价格虽为DeepSeek V3.2的一半，但速度却是后者的近3倍。

这样的推理效率主要得益于两项创新技术。其一是采用了Hybrid Sliding Window Attention（混合滑动窗口注意力机制），其中SWA与Full Attention的比例为5:1。

罗福莉指出，相较于一些复杂的Linear Attention，SWA在兼顾长短文的推理、知识检索等方面表现更佳。一位AI大模型行业从业者对界面新闻记者表示，SWA本质上是一种Sparse Attention（稀疏注意力机制），业界普遍利用它解决长上下文的推理效率问题。其最大优势是可以将KV Cache保持在一个固定最大值内，不会随上下文扩大而无限增长，从而实现降本增效的目的。

他指出，这种机制的核心问题是在长文本任务中可能受到窗口策略限制而表现不佳，这也是SWA会与Full Attention进行混合配比的原因之一。

MiMo-V2-Flash的另一项重要创新在于MTP（Multi-Token Prediction）。罗福莉表示，团队在训练时加入了一层MTP层以提高基座模型能力，并在微调时也加入了更多MTP层。最终在推理时加入了3层MTP，通过加速并行token验证的方式实现了2-2.6倍推理速度的提升。

此外，为了提高强化学习训练的稳定性，MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation（MOPD）的后训练范式。相较于传统SFT+RL的后训练方式，它可以提供稠密的token level监督学习信号，以简单快速的方式获得各个专家模型的能力。

“我们还发现了一个很意外的事情：当学生很快超越老师时，我们能否将老师替换成学生继续自我迭代提升？这是一个正在进行中的工作。”罗福莉预告称。

小米大模型新突破：罗福莉引领智能体革命小米大模型智能体 MoE 第2张