当前位置：首页 > 科技资讯 > 正文

MiniMax M2.5：性能飞跃与成本优化的智能体新纪元

主机测评网
科技资讯
2026-04-12
334

本文素材源自Minimax官方博客及技术发展路径，经编辑整理，并添加了当日股价变动。此过程旨在测试Minimax的写作能力。

一、模型定位与核心能力

2026年2月，MiniMax正式推出新一代旗舰模型M2.5。据官方介绍，M2.5是一款通过海量真实环境强化学习训练的大模型，在编程、智能体工具使用、搜索及办公生产力等经济任务领域达到行业领先水平。在SWE-Bench Verified测试中，M2.5获得80.2%的得分，在Multi-SWE-Bench中得51.3%，在BrowseComp（含上下文管理）中得76.3%。

MiniMax M2.5：性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构强化学习第1张

值得注意的是，M2.5在复杂智能体任务执行效率上实现显著提升。完成SWE-Bench Verified评估的速度比M2.1快37%，与Claude Opus 4.6持平。这一提升主要得益于模型在任务分解和推理效率方面的优化。

MiniMax指出，M2.5是M系列模型的最新迭代，延续M2.1的核心技术框架。

从M1到M2.5的技术发展脉络清晰：M1专注于推理深度突破，M2强调高效编码和智能体工作流，而M2.5在此基础上进一步强化了多场景应用能力。M2.5并非全新技术范式，而是M2.1的工程优化和能力增强。

二、技术框架分析：延续与工程优化

2.1 整体架构设计

M2.5采用与M2相同的混合专家模型（MoE）架构，总参数规模达2300亿，但推理时仅激活100亿参数。这种“极端稀疏性”设计旨在实现“小激活、大智慧”的计算效率。

从演进视角看，M2.5框架基本延续M2.1。M2.1强化多语言编程能力，解决跨语言逻辑对齐问题；M2.5在此基础上优化编程、工具调用、搜索增强（RAG）及办公生产力表现。这表明M2.5架构层面未发生根本变革，而是工程更新和能力扩展。

2.2 Forge智能体原生强化学习框架

M2.5延续名为Forge的智能体原生强化学习框架。该框架自M2.1推出，核心理念是引入中间层，将底层训练-推理引擎与智能体完全解耦，支持任意智能体集成，优化模型在不同智能体间的泛化能力。

MiniMax M2.5：性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构强化学习第2张

在优化系统吞吐量方面，Forge采用异步调度策略平衡系统吞吐量与样本偏离度。此外，设计树状结构合并策略用于训练样本处理，据官方称实现约40倍训练加速。这一工程优化显著提升大规模强化学习训练效率。

2.3 强化学习算法与奖励设计

M2.5继续采用MiniMax于2024年初提出的CISPO算法，确保MoE模型在大规模训练过程中的稳定性。

针对智能体rollout中长上下文带来的信用分配挑战，M2.5引入过程奖励机制，用于端到端监控生成质量。此外，为深度对齐用户体验，模型通过智能体轨迹评估任务完成时间，实现模型智能与响应速度的最优权衡。

2.4 训练数据与评估体系

M2.5训练覆盖超过10种编程语言及20万个真实场景，确保模型在多元化开发环境中的泛化能力。在办公场景方面，整合金融、法律和社会科学领域专家知识，将隐性知识融入模型训练流程。

MiniMax构建内部Cowork Agent评估框架（GDPval-MM），通过成对比较评估交付物质量和智能体轨迹专业性，同时监控工作流程token消耗，估算模型生产效率提升。

三、性能表现与基准测试

3.1 编程能力

据官方数据，M2.5在多项编程评估中领先行业。在SWE-Bench Verified测试中得80.2%；在Multi-SWE-Bench测试中得51.3%。

MiniMax M2.5：性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构强化学习第3张

M2.5在跨分布harness的泛化能力上也表现出色。不同编程智能体harness测试中，M2.5在Droid harness上得79.7%（优于Opus 4.6的78.9%），在OpenCode harness上得76.1%（优于Opus 4.6的75.9%）。

显著改进是M2.5具备架构师思维能力。据官方说明，这一特性在训练过程中自然涌现：编写代码前，会从软件架构师视角分解和规划项目功能、结构和UI设计。这对复杂系统工程开发具有重要价值。

3.2 搜索与工具调用

在BrowseComp和Wide Search等基准测试中，M2.5表现行业领先。模型泛化能力提升——面对不熟悉脚手架环境时表现更稳定。

MiniMax M2.5：性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构强化学习第4张

为更准确评估真实专业任务中的搜索能力，MiniMax构建RISE（Realistic Interactive Search Evaluation）基准。测试结果表明M2.5在真实世界专业任务中表现优异。

3.3 办公生产力

在办公场景方面，M2.5经过训练能产出真正可交付成果。在金融建模等高价值工作场景中，M2.5能力显著提升。在与主流模型对标测试中，平均胜率达59.0%。

四、成本、效率和市场

M2.5原生支持的推理速度达100 tokens/秒，接近其他前沿模型的两倍。此外，强化学习训练策略激励高效推理和最优任务分解。得益于这些因素协同作用，M2.5在复杂任务完成方面实现显著时间节省。

具体而言，运行SWE-Bench Verified时，M2.5平均每个任务消耗352万tokens（M2.1为372万）。得益于并行工具调用等改进，端到端运行时间从平均31.3分钟减少到22.8分钟（提升37%）。这一速度与Claude Opus 4.6的22.9分钟基本持平，而单个任务总成本仅为Claude Opus 4.6的10%。