当前位置：首页 > 科技资讯 > 正文

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破

主机测评网
科技资讯
2026-01-21
577

月之暗面公司正式推出Kimi K2 Thinking模型，该模型已全面开放源代码，标志着AI领域的新进展。

其核心理念是“模型即Agent”，不仅作为Kimi“目前最强大的开源思考模型”，还具备实时思考与工具运用的能力——

在无需人工介入的情况下，能够执行高达200至300次的连续工具调用。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第1张

作为今年备受瞩目的开源模型系列之一，Kimi K2 Thinking版本一经上线便引发广泛讨论：进一步缩小了开源与闭源模型之间的性能差距。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第2张

以下是关键技术细节的快速概览：

参数规模达1TB，激活参数为32B，采用INT4精度而非FP8。

支持256K上下文窗口长度。

模型设计注重专家模块的增强，减少头部开销，以提升思考效率。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第3张

△

在多项评测基准中，如人类最后的考试（HLE）、自主网络浏览能力测试BrowseComp，以及复杂信息收集推理基准SEAL-0，Kimi K2 Thinking均刷新了SOTA记录，超越了GPT-5、Claude Sonnet 4.5（Thinking）等闭源模型。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第4张

Kimi K2 Thinking的代码和模型权重遵循宽松的MIT协议。新模型已迅速上线kimi.com和最新版Kimi手机应用，用户可立即体验。API访问可通过Kimi开放平台实现。

技术细节

据官方介绍，K2 Thinking是月之暗面在Test-Time Scaling（测试时扩展）领域的最新成果，通过扩展思考Token和工具调用轮次，显著提升了模型的Agent和推理性能。

智能体与推理能力全面提升

在测试中，例如在允许使用搜索、Python和网络浏览工具的人类最后的考试（HLE）中，Kimi K2 Thinking取得了44.9%的SOTA成绩。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第5张

官方还展示了一个示例，其中K2 Thinking通过23次推理和工具调用，成功解决了博士级数学问题。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第6张

第三方测试也验证了其智能体能力的提升：

Artificial Analysis在𝜏²-Bench Telecom智能体工具使用基准中对Kimi K2 Thinking进行了评估。

结果表明，Kimi K2 Thinking达到SOTA水平，在智能体场景下，相比此前广受好评的K2 Instruct有显著进步（73%→93%）。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第7张

自主搜索与浏览能力全面提升

在复杂搜索和浏览任务中，Kimi K2 Thinking同样表现卓越。

在人类平均智能得分仅为29.2%的BrowseComp测试中，Kimi K2 Thinking展现出深入探究的能力，以60.2%的成绩成为新的SOTA模型。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第8张

基于长程规划和自主搜索能力，Kimi K2 Thinking可通过上百轮的“思考→搜索→浏览网页→思考→编程”动态循环，持续提出并优化假设、验证证据、进行推理，最终构建逻辑一致的答案。

这种边搜索边思考的能力，使模型能够将模糊开放式问题分解为清晰可执行的子任务。

Agentic编程能力增强

在编程领域，Kimi K2 Thinking在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等基准测试中，与顶尖闭源模型GPT-5、Claude Sonnet 4.5等竞争激烈。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第9张

官方指出，Kimi K2 Thinking在处理HTML、React及组件丰富的前端任务时性能显著提升，能将创意转化为功能齐全、响应迅速的产品。

在Agentic Coding场景中，Kimi K2 Thinking能在调用工具的同时进行思考，灵活集成到software agents中，处理复杂多步骤的开发工作流。

例如，复现一个可用的Word文字编辑器。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第10张

再如，创建华丽风格的体素艺术作品：

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第11张

通用基础能力升级

除了智能体和推理能力的主线提升，Kimi K2 Thinking的通用基础能力也得到增强。

创意写作：Kimi K2 Thinking显著优化了写作能力，能将粗略灵感转化为清晰、动人且意图明确的叙述，兼具韵律感和深度。它能驾驭微妙文风差异和模糊结构，并在长篇内容中保持风格连贯。在创意写作中，其意象更生动，情感共鸣更强烈，融合精准表达与丰富表现力。

学术与研究：在学术研究和专业领域，Kimi K2 Thinking在分析深度、信息准确性和逻辑结构方面均有明显进步。它能剖析复杂指令，并以清晰严谨的方式拓展思路，尤其擅长处理学术论文、技术摘要以及对信息完整性和推理质量要求高的长篇报告。

个人与情感：在回应个人或情感类问题时，Kimi K2 Thinking的回答更具同理心，立场更中正平和。不仅思考深入明确，能提供细致入微的观点和切实可行的建议，还更富人情味。

原生INT4量化

值得注意的是，K2 Kimi Thinking采用INT4而非FP8精度。

官方解释称，思考模型会产生极长的解码长度，常规量化方法常导致性能下降。为应对这一挑战，他们在后训练阶段采用量化感知训练（QAT），并对MoE组件应用INT4纯权重量化。

这使得Kimi K2 Thinking能在复杂推理和Agentic任务中支持原生INT4推理，并将生成速度提升约2倍。

此外，INT4对推理硬件的兼容性更强，对国产加速计算芯片更友好。

注：Blackwell之前的英伟达GPU不支持FP4。

上手实测

更多测试实例可参考官方技术博客，我们也进行了简单测试（仅开启长思考模式，未联网）。

经典题目：

一根7米长的甘蔗如何通过1×2米的门

经过近5分钟思考，Kimi给出的回答是：

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第12张

思考时间较长，但Kimi K2 Thinking成功规避了题目陷阱，认识到门的尺寸并不限制甘蔗通过。

编程测试题目：

编写一个Python程序，让一个小球在旋转的六边形内弹跳，小球运动遵循物理规律

这一次，Kimi K2 Thinking迅速开始编写代码。

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破 Thinking 开源AI模型工具调用性能基准第13张

您觉得这个表现如何？

如果您已进行实测，欢迎在评论区分享更多测试结果~

项目地址：https://huggingface.co/moonshotai/Kimi-K2-Thinking

技术博客链接：https://moonshotai.github.io/Kimi-K2/thinking.html

参考链接：

[1]https://x.com/Kimi_Moonshot/status/1986449512538513505

[2]https://x.com/ArtificialAnlys/status/1986541785511043536

[3]https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA

性价比服务器性价比vps 免费vps

本文由主机测评网于2026-01-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260119189.html

Kimi K2 Thinking开源发布：AI Agent与推理能力全面突破