当前位置：首页 > 科技资讯 > 正文

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破

主机测评网
科技资讯
2026-01-14
617

开源模型领域的领先地位再度发生更迭，这一次依然由中国本土模型摘得桂冠！

此前长期霸占榜单的DeepSeek和Qwen来自杭州，而如今这一荣耀转移至上海的Minimax。

在第三方评估机构Artificial Analysis的最新测试中，Minimax M2以61分的优异成绩荣登开源模型榜首，紧随Claude 4.5 Sonnet之后。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第1张

根据官方介绍，Minimax M2专门针对智能体和编程任务而设计，在编程能力与智能体表现方面尤为出色。

此外，它在经济性方面也极具优势，推理速度达到Claude 3.5 Sonnet的两倍，而API价格仅为后者的8%。

Minimax指出，智能水平、运行速度和成本在过去常被视为“不可能三角”，但随着M2的推出，这一传统认知已被彻底打破。

目前，M2的完整模型权重已全面开源，采用MIT许可协议，其在线智能体平台和API服务也正限时免费开放。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第2张

以8%成本实现Claude级别性能

Minimax M2是一个稀疏度较高的混合专家模型，总参数量达到2300亿，而激活参数量仅为100亿。

业内人士指出，100亿的激活参数将带来极快的运行速度，若结合Cerebras或Groq等推理加速平台，有望实现每秒上千Token的处理能力。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第3张

另一大特色是采用了交错的思维格式，使模型能够跨多个对话步骤进行规划与验证，这对于智能体推理至关重要。

如开篇所述，Minimax官方将M2定位为一款专为智能体和编程而打造的模型。

它专为端到端开发工作流程构建，展现出对复杂、长链工具调用任务的卓越规划与稳定执行能力，支持Shell、浏览器、Python代码解释器及多种MCP工具的调用。

在智能体最关键的三大能力——编程能力、工具使用能力和深度搜索能力上，M2在工具使用和深度搜索方面与国际顶尖模型不相上下，编程能力也在国内处于领先地位。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第4张

综合表现上，M2在Artificial Analysis的测试中获得了总排名第五、开源模型第一的佳绩。

该测试涵盖了10个热门数据集，包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第5张

M2的定价为0.3美元或2.1人民币每百万输入Token，1.2美元或8.4人民币每百万输出Token，仅为Claude 3.5 Sonnet的8%。

以Artificial Analysis的成绩为参考，Minimax绘制了一张图表来比较各大模型的性价比（横轴越向右代表成本越低）。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第6张

在线推理服务的速度可达每秒100Token，Minimax也通过图表展示了以速度衡量的性价比优势。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第7张

同时，Minimax团队针对智能体、全站开发和终端使用三项任务，将M2与其他模型进行了一对一对比。

结果显示，M2相较于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2均呈现出极高的胜率与平局比例，同时成本极具竞争力。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第8张

为更直观展示M2的智能体能力，Minimax已将M2部署至智能体平台，限时免费使用，按官方说法，免费期将持续至服务器无法承受为止。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第9张

在该平台上，也展示了众多Minimax智能体的现成应用案例。

Minimax智能体：既能编程，又可制作PPT

借助Minimax的智能体平台，用户可以创建各式各样的网页或在线应用。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第10张

许多经典游戏也能通过该平台在Web环境中复刻并直接部署。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第11张

甚至有网友创作了在线五子棋游戏平台，不仅包含游戏本体，还集成在线对战、观战、实时聊天及用户注册等功能。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第12张

除了编程，该平台还能生成各类主题的调研报告或PPT演示文稿。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第13张

在X平台上，有网友展示了使用M2智能体编程的实战成果，仅通过三轮反馈便完成了一个足球小游戏的制作。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第14张

可以说，其实际效果令人印象深刻。

除了模型表现，M2所采用的注意力机制也引发了广泛讨论。

混合注意力与全注意力之争

有网友从vllm代码中发现了M2的更多技术细节，指出M2采用了类似GPT-OSS的全注意力与滑动窗口注意力混合机制。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第15张

但Minimax NLP负责人澄清，最初确实考虑在预训练阶段引入滑动窗口注意力，但发现会导致性能下降，因此最终选择了全注意力机制。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第16张

Falcon团队的技术人员表示，他们在模型训练中也观察到类似现象，滑动窗口注意力的混合使用会降低模型性能，这与部分论文结论不符。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第17张

在部分论文与实际应用中，滑动窗口注意力在提升效率的同时能保持性能，如Mistral和谷歌Gemma模型的相关研究均支持这一观点。

但Minimax的实际测试表明，其在长程依赖任务上存在局限性。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第18张

同时，M2也未采用Lightning Attention，原因同样是性能损失考虑。

Minimax M2问鼎开源模型榜首，以智能体与编程为核心突破开源模型 M2 智能体编程第19张

另有论文主张线性注意力在长序列任务中更具优势。

究竟哪种技术路线更优，可能还需根据具体需求判断，但至少从M2的表现来看，Minimax的选择确实为其带来了显著成效。

智能体平台：https://agent.minimax.ioHugging

Face：https://huggingface.co/MiniMaxAI/MiniMax-M2

参考链接：

[1]https://www.minimax.io/news/minimax-m2

[2]https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool

[3]https://x.com/jessi_cata/status/1982936050256490968[4]https://x.com/JingweiZuo/status/1982822979030692356

云服务器服务器教程阿里云服务器

本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260117686.html

上一篇

AI云市场角逐：厂商如何定义自身的"第一"地位？

下一篇

Ubuntu Server 22.04.5 系统安装教程（详细步骤从入门到精通）