当前位置:首页 > 科技资讯 > 正文

MiniMax M2.5:性能飞跃与成本优化的智能体新纪元

本文素材源自Minimax官方博客及技术发展路径,经编辑整理,并添加了当日股价变动。此过程旨在测试Minimax的写作能力。

一、模型定位与核心能力

2026年2月,MiniMax正式推出新一代旗舰模型M2.5。据官方介绍,M2.5是一款通过海量真实环境强化学习训练的大模型,在编程、智能体工具使用、搜索及办公生产力等经济任务领域达到行业领先水平。在SWE-Bench Verified测试中,M2.5获得80.2%的得分,在Multi-SWE-Bench中得51.3%,在BrowseComp(含上下文管理)中得76.3%。

MiniMax M2.5:性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构 强化学习 第1张

值得注意的是,M2.5在复杂智能体任务执行效率上实现显著提升。完成SWE-Bench Verified评估的速度比M2.1快37%,与Claude Opus 4.6持平。这一提升主要得益于模型在任务分解和推理效率方面的优化。

MiniMax指出,M2.5是M系列模型的最新迭代,延续M2.1的核心技术框架。

从M1到M2.5的技术发展脉络清晰:M1专注于推理深度突破,M2强调高效编码和智能体工作流,而M2.5在此基础上进一步强化了多场景应用能力。M2.5并非全新技术范式,而是M2.1的工程优化和能力增强。

二、技术框架分析:延续与工程优化

2.1 整体架构设计

M2.5采用与M2相同的混合专家模型(MoE)架构,总参数规模达2300亿,但推理时仅激活100亿参数。这种“极端稀疏性”设计旨在实现“小激活、大智慧”的计算效率。

从演进视角看,M2.5框架基本延续M2.1。M2.1强化多语言编程能力,解决跨语言逻辑对齐问题;M2.5在此基础上优化编程、工具调用、搜索增强(RAG)及办公生产力表现。这表明M2.5架构层面未发生根本变革,而是工程更新和能力扩展。

2.2 Forge智能体原生强化学习框架

M2.5延续名为Forge的智能体原生强化学习框架。该框架自M2.1推出,核心理念是引入中间层,将底层训练-推理引擎与智能体完全解耦,支持任意智能体集成,优化模型在不同智能体间的泛化能力。

MiniMax M2.5:性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构 强化学习 第2张

在优化系统吞吐量方面,Forge采用异步调度策略平衡系统吞吐量与样本偏离度。此外,设计树状结构合并策略用于训练样本处理,据官方称实现约40倍训练加速。这一工程优化显著提升大规模强化学习训练效率。

2.3 强化学习算法与奖励设计

M2.5继续采用MiniMax于2024年初提出的CISPO算法,确保MoE模型在大规模训练过程中的稳定性。

针对智能体rollout中长上下文带来的信用分配挑战,M2.5引入过程奖励机制,用于端到端监控生成质量。此外,为深度对齐用户体验,模型通过智能体轨迹评估任务完成时间,实现模型智能与响应速度的最优权衡。

2.4 训练数据与评估体系

M2.5训练覆盖超过10种编程语言及20万个真实场景,确保模型在多元化开发环境中的泛化能力。在办公场景方面,整合金融、法律和社会科学领域专家知识,将隐性知识融入模型训练流程。

MiniMax构建内部Cowork Agent评估框架(GDPval-MM),通过成对比较评估交付物质量和智能体轨迹专业性,同时监控工作流程token消耗,估算模型生产效率提升。

三、性能表现与基准测试

3.1 编程能力

据官方数据,M2.5在多项编程评估中领先行业。在SWE-Bench Verified测试中得80.2%;在Multi-SWE-Bench测试中得51.3%。

MiniMax M2.5:性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构 强化学习 第3张

M2.5在跨分布harness的泛化能力上也表现出色。不同编程智能体harness测试中,M2.5在Droid harness上得79.7%(优于Opus 4.6的78.9%),在OpenCode harness上得76.1%(优于Opus 4.6的75.9%)。

显著改进是M2.5具备架构师思维能力。据官方说明,这一特性在训练过程中自然涌现:编写代码前,会从软件架构师视角分解和规划项目功能、结构和UI设计。这对复杂系统工程开发具有重要价值。

3.2 搜索与工具调用

在BrowseComp和Wide Search等基准测试中,M2.5表现行业领先。模型泛化能力提升——面对不熟悉脚手架环境时表现更稳定。

MiniMax M2.5:性能飞跃与成本优化的智能体新纪元 M2.5 智能体 MoE架构 强化学习 第4张

为更准确评估真实专业任务中的搜索能力,MiniMax构建RISE(Realistic Interactive Search Evaluation)基准。测试结果表明M2.5在真实世界专业任务中表现优异。

3.3 办公生产力

在办公场景方面,M2.5经过训练能产出真正可交付成果。在金融建模等高价值工作场景中,M2.5能力显著提升。在与主流模型对标测试中,平均胜率达59.0%。

四、成本、效率和市场

M2.5原生支持的推理速度达100 tokens/秒,接近其他前沿模型的两倍。此外,强化学习训练策略激励高效推理和最优任务分解。得益于这些因素协同作用,M2.5在复杂任务完成方面实现显著时间节省。

具体而言,运行SWE-Bench Verified时,M2.5平均每个任务消耗352万tokens(M2.1为372万)。得益于并行工具调用等改进,端到端运行时间从平均31.3分钟减少到22.8分钟(提升37%)。这一速度与Claude Opus 4.6的22.9分钟基本持平,而单个任务总成本仅为Claude Opus 4.6的10%。

4.2 定价策略与市场反响

根据官方信息,M2.5系列包含两个版本:M2.5和M2.5-Lightning。两者能力相同,仅在速度上有所差异。

M2.5-Lightning稳定吞吐量达100 tokens/秒(价格:每百万输入tokens 0.3美元;每百万输出tokens 2.4美元)。M2.5吞吐量为50 tokens/秒(价格减半)。两个版本均支持缓存功能。

按输出价格计算,M2.使用. . .. . . . . . . . . . . . . .... ..... .... .... .... .... .... .... .... .... .... .... .... .... ....