当前位置:首页 > 科技资讯 > 正文

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破

月之暗面公司正式推出Kimi K2 Thinking模型,该模型已全面开放源代码,标志着AI领域的新进展。

其核心理念是“模型即Agent”,不仅作为Kimi“目前最强大的开源思考模型”,还具备实时思考与工具运用的能力——

在无需人工介入的情况下,能够执行高达200至300次的连续工具调用

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第1张

作为今年备受瞩目的开源模型系列之一,Kimi K2 Thinking版本一经上线便引发广泛讨论:进一步缩小了开源与闭源模型之间的性能差距。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第2张

以下是关键技术细节的快速概览:

参数规模达1TB,激活参数为32B,采用INT4精度而非FP8。

支持256K上下文窗口长度。

模型设计注重专家模块的增强,减少头部开销,以提升思考效率。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第3张

在多项评测基准中,如人类最后的考试(HLE)、自主网络浏览能力测试BrowseComp,以及复杂信息收集推理基准SEAL-0,Kimi K2 Thinking均刷新了SOTA记录,超越了GPT-5、Claude Sonnet 4.5(Thinking)等闭源模型。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第4张

Kimi K2 Thinking的代码和模型权重遵循宽松的MIT协议。新模型已迅速上线kimi.com和最新版Kimi手机应用,用户可立即体验。API访问可通过Kimi开放平台实现。

技术细节

据官方介绍,K2 Thinking是月之暗面在Test-Time Scaling(测试时扩展)领域的最新成果,通过扩展思考Token和工具调用轮次,显著提升了模型的Agent和推理性能。

智能体与推理能力全面提升

在测试中,例如在允许使用搜索、Python和网络浏览工具的人类最后的考试(HLE)中,Kimi K2 Thinking取得了44.9%的SOTA成绩。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第5张

官方还展示了一个示例,其中K2 Thinking通过23次推理和工具调用,成功解决了博士级数学问题。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第6张

第三方测试也验证了其智能体能力的提升:

Artificial Analysis在𝜏²-Bench Telecom智能体工具使用基准中对Kimi K2 Thinking进行了评估。

结果表明,Kimi K2 Thinking达到SOTA水平,在智能体场景下,相比此前广受好评的K2 Instruct有显著进步(73%→93%)。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第7张

自主搜索与浏览能力全面提升

在复杂搜索和浏览任务中,Kimi K2 Thinking同样表现卓越。

在人类平均智能得分仅为29.2%的BrowseComp测试中,Kimi K2 Thinking展现出深入探究的能力,以60.2%的成绩成为新的SOTA模型。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第8张

基于长程规划和自主搜索能力,Kimi K2 Thinking可通过上百轮的“思考→搜索→浏览网页→思考→编程”动态循环,持续提出并优化假设、验证证据、进行推理,最终构建逻辑一致的答案。

这种边搜索边思考的能力,使模型能够将模糊开放式问题分解为清晰可执行的子任务。

Agentic编程能力增强

在编程领域,Kimi K2 Thinking在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等基准测试中,与顶尖闭源模型GPT-5、Claude Sonnet 4.5等竞争激烈。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第9张

官方指出,Kimi K2 Thinking在处理HTML、React及组件丰富的前端任务时性能显著提升,能将创意转化为功能齐全、响应迅速的产品。

在Agentic Coding场景中,Kimi K2 Thinking能在调用工具的同时进行思考,灵活集成到software agents中,处理复杂多步骤的开发工作流。

例如,复现一个可用的Word文字编辑器。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第10张

再如,创建华丽风格的体素艺术作品:

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第11张

通用基础能力升级

除了智能体和推理能力的主线提升,Kimi K2 Thinking的通用基础能力也得到增强。

创意写作:Kimi K2 Thinking显著优化了写作能力,能将粗略灵感转化为清晰、动人且意图明确的叙述,兼具韵律感和深度。它能驾驭微妙文风差异和模糊结构,并在长篇内容中保持风格连贯。在创意写作中,其意象更生动,情感共鸣更强烈,融合精准表达与丰富表现力。

学术与研究:在学术研究和专业领域,Kimi K2 Thinking在分析深度、信息准确性和逻辑结构方面均有明显进步。它能剖析复杂指令,并以清晰严谨的方式拓展思路,尤其擅长处理学术论文、技术摘要以及对信息完整性和推理质量要求高的长篇报告。

个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking的回答更具同理心,立场更中正平和。不仅思考深入明确,能提供细致入微的观点和切实可行的建议,还更富人情味。

原生INT4量化

值得注意的是,K2 Kimi Thinking采用INT4而非FP8精度。

官方解释称,思考模型会产生极长的解码长度,常规量化方法常导致性能下降。为应对这一挑战,他们在后训练阶段采用量化感知训练(QAT),并对MoE组件应用INT4纯权重量化。

这使得Kimi K2 Thinking能在复杂推理和Agentic任务中支持原生INT4推理,并将生成速度提升约2倍。

此外,INT4对推理硬件的兼容性更强,对国产加速计算芯片更友好

注:Blackwell之前的英伟达GPU不支持FP4。

上手实测

更多测试实例可参考官方技术博客,我们也进行了简单测试(仅开启长思考模式,未联网)。

经典题目:

一根7米长的甘蔗如何通过1×2米的门

经过近5分钟思考,Kimi给出的回答是:

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第12张

思考时间较长,但Kimi K2 Thinking成功规避了题目陷阱,认识到门的尺寸并不限制甘蔗通过。

编程测试题目:

编写一个Python程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律

这一次,Kimi K2 Thinking迅速开始编写代码。

Kimi K2 Thinking开源发布:AI Agent与推理能力全面突破 Thinking 开源AI模型 工具调用 性能基准 第13张

您觉得这个表现如何?

如果您已进行实测,欢迎在评论区分享更多测试结果~

项目地址:https://huggingface.co/moonshotai/Kimi-K2-Thinking

技术博客链接:https://moonshotai.github.io/Kimi-K2/thinking.html

参考链接:

[1]https://x.com/Kimi_Moonshot/status/1986449512538513505

[2]https://x.com/ArtificialAnlys/status/1986541785511043536

[3]https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA