当前位置:首页 > 科技资讯 > 正文

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破

开源模型领域的领先地位再度发生更迭,这一次依然由中国本土模型摘得桂冠!

此前长期霸占榜单的DeepSeek和Qwen来自杭州,而如今这一荣耀转移至上海的Minimax。

在第三方评估机构Artificial Analysis的最新测试中,Minimax M2以61分的优异成绩荣登开源模型榜首,紧随Claude 4.5 Sonnet之后。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第1张

根据官方介绍,Minimax M2专门针对智能体和编程任务而设计,在编程能力与智能体表现方面尤为出色。

此外,它在经济性方面也极具优势,推理速度达到Claude 3.5 Sonnet的两倍,而API价格仅为后者的8%

Minimax指出,智能水平、运行速度和成本在过去常被视为“不可能三角”,但随着M2的推出,这一传统认知已被彻底打破。

目前,M2的完整模型权重已全面开源,采用MIT许可协议,其在线智能体平台和API服务也正限时免费开放

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第2张

以8%成本实现Claude级别性能

Minimax M2是一个稀疏度较高的混合专家模型,总参数量达到2300亿,而激活参数量仅为100亿。

业内人士指出,100亿的激活参数将带来极快的运行速度,若结合Cerebras或Groq等推理加速平台,有望实现每秒上千Token的处理能力。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第3张

另一大特色是采用了交错的思维格式,使模型能够跨多个对话步骤进行规划与验证,这对于智能体推理至关重要。

如开篇所述,Minimax官方将M2定位为一款专为智能体和编程而打造的模型。

它专为端到端开发工作流程构建,展现出对复杂、长链工具调用任务的卓越规划与稳定执行能力,支持Shell、浏览器、Python代码解释器及多种MCP工具的调用。

在智能体最关键的三大能力——编程能力、工具使用能力和深度搜索能力上,M2在工具使用和深度搜索方面与国际顶尖模型不相上下,编程能力也在国内处于领先地位。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第4张

综合表现上,M2在Artificial Analysis的测试中获得了总排名第五、开源模型第一的佳绩。

该测试涵盖了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第5张

M2的定价为0.3美元或2.1人民币每百万输入Token,1.2美元或8.4人民币每百万输出Token,仅为Claude 3.5 Sonnet的8%。

以Artificial Analysis的成绩为参考,Minimax绘制了一张图表来比较各大模型的性价比(横轴越向右代表成本越低)。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第6张

在线推理服务的速度可达每秒100Token,Minimax也通过图表展示了以速度衡量的性价比优势。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第7张

同时,Minimax团队针对智能体、全站开发和终端使用三项任务,将M2与其他模型进行了一对一对比。

结果显示,M2相较于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均呈现出极高的胜率与平局比例,同时成本极具竞争力。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第8张

为更直观展示M2的智能体能力,Minimax已将M2部署至智能体平台,限时免费使用,按官方说法,免费期将持续至服务器无法承受为止

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第9张

在该平台上,也展示了众多Minimax智能体的现成应用案例。

Minimax智能体:既能编程,又可制作PPT

借助Minimax的智能体平台,用户可以创建各式各样的网页或在线应用。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第10张

许多经典游戏也能通过该平台在Web环境中复刻并直接部署。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第11张

甚至有网友创作了在线五子棋游戏平台,不仅包含游戏本体,还集成在线对战、观战、实时聊天及用户注册等功能。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第12张

除了编程,该平台还能生成各类主题的调研报告或PPT演示文稿。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第13张

在X平台上,有网友展示了使用M2智能体编程的实战成果,仅通过三轮反馈便完成了一个足球小游戏的制作。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第14张

可以说,其实际效果令人印象深刻。

除了模型表现,M2所采用的注意力机制也引发了广泛讨论。

混合注意力与全注意力之争

有网友从vllm代码中发现了M2的更多技术细节,指出M2采用了类似GPT-OSS的全注意力与滑动窗口注意力混合机制。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第15张

但Minimax NLP负责人澄清,最初确实考虑在预训练阶段引入滑动窗口注意力,但发现会导致性能下降,因此最终选择了全注意力机制。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第16张

Falcon团队的技术人员表示,他们在模型训练中也观察到类似现象,滑动窗口注意力的混合使用会降低模型性能,这与部分论文结论不符。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第17张

在部分论文与实际应用中,滑动窗口注意力在提升效率的同时能保持性能,如Mistral和谷歌Gemma模型的相关研究均支持这一观点。

但Minimax的实际测试表明,其在长程依赖任务上存在局限性。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第18张

同时,M2也未采用Lightning Attention,原因同样是性能损失考虑。

Minimax M2问鼎开源模型榜首,以智能体与编程为核心突破 开源模型 M2 智能体 编程 第19张

另有论文主张线性注意力在长序列任务中更具优势。

究竟哪种技术路线更优,可能还需根据具体需求判断,但至少从M2的表现来看,Minimax的选择确实为其带来了显著成效。

智能体平台:https://agent.minimax.ioHugging

Face:https://huggingface.co/MiniMaxAI/MiniMax-M2

参考链接:

[1]https://www.minimax.io/news/minimax-m2

[2]https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool

[3]https://x.com/jessi_cata/status/1982936050256490968[4]https://x.com/JingweiZuo/status/1982822979030692356