月之暗面公司正式推出Kimi K2 Thinking模型,该模型已全面开放源代码,标志着AI领域的新进展。
其核心理念是“模型即Agent”,不仅作为Kimi“目前最强大的开源思考模型”,还具备实时思考与工具运用的能力——
在无需人工介入的情况下,能够执行高达200至300次的连续工具调用。
作为今年备受瞩目的开源模型系列之一,Kimi K2 Thinking版本一经上线便引发广泛讨论:进一步缩小了开源与闭源模型之间的性能差距。
以下是关键技术细节的快速概览:
参数规模达1TB,激活参数为32B,采用INT4精度而非FP8。
支持256K上下文窗口长度。
模型设计注重专家模块的增强,减少头部开销,以提升思考效率。
△
在多项评测基准中,如人类最后的考试(HLE)、自主网络浏览能力测试BrowseComp,以及复杂信息收集推理基准SEAL-0,Kimi K2 Thinking均刷新了SOTA记录,超越了GPT-5、Claude Sonnet 4.5(Thinking)等闭源模型。
Kimi K2 Thinking的代码和模型权重遵循宽松的MIT协议。新模型已迅速上线kimi.com和最新版Kimi手机应用,用户可立即体验。API访问可通过Kimi开放平台实现。
据官方介绍,K2 Thinking是月之暗面在Test-Time Scaling(测试时扩展)领域的最新成果,通过扩展思考Token和工具调用轮次,显著提升了模型的Agent和推理性能。
在测试中,例如在允许使用搜索、Python和网络浏览工具的人类最后的考试(HLE)中,Kimi K2 Thinking取得了44.9%的SOTA成绩。
官方还展示了一个示例,其中K2 Thinking通过23次推理和工具调用,成功解决了博士级数学问题。
第三方测试也验证了其智能体能力的提升:
Artificial Analysis在𝜏²-Bench Telecom智能体工具使用基准中对Kimi K2 Thinking进行了评估。
结果表明,Kimi K2 Thinking达到SOTA水平,在智能体场景下,相比此前广受好评的K2 Instruct有显著进步(73%→93%)。
在复杂搜索和浏览任务中,Kimi K2 Thinking同样表现卓越。
在人类平均智能得分仅为29.2%的BrowseComp测试中,Kimi K2 Thinking展现出深入探究的能力,以60.2%的成绩成为新的SOTA模型。
基于长程规划和自主搜索能力,Kimi K2 Thinking可通过上百轮的“思考→搜索→浏览网页→思考→编程”动态循环,持续提出并优化假设、验证证据、进行推理,最终构建逻辑一致的答案。
这种边搜索边思考的能力,使模型能够将模糊开放式问题分解为清晰可执行的子任务。
在编程领域,Kimi K2 Thinking在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等基准测试中,与顶尖闭源模型GPT-5、Claude Sonnet 4.5等竞争激烈。
官方指出,Kimi K2 Thinking在处理HTML、React及组件丰富的前端任务时性能显著提升,能将创意转化为功能齐全、响应迅速的产品。
在Agentic Coding场景中,Kimi K2 Thinking能在调用工具的同时进行思考,灵活集成到software agents中,处理复杂多步骤的开发工作流。
例如,复现一个可用的Word文字编辑器。
再如,创建华丽风格的体素艺术作品:
除了智能体和推理能力的主线提升,Kimi K2 Thinking的通用基础能力也得到增强。
创意写作:Kimi K2 Thinking显著优化了写作能力,能将粗略灵感转化为清晰、动人且意图明确的叙述,兼具韵律感和深度。它能驾驭微妙文风差异和模糊结构,并在长篇内容中保持风格连贯。在创意写作中,其意象更生动,情感共鸣更强烈,融合精准表达与丰富表现力。
学术与研究:在学术研究和专业领域,Kimi K2 Thinking在分析深度、信息准确性和逻辑结构方面均有明显进步。它能剖析复杂指令,并以清晰严谨的方式拓展思路,尤其擅长处理学术论文、技术摘要以及对信息完整性和推理质量要求高的长篇报告。
个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking的回答更具同理心,立场更中正平和。不仅思考深入明确,能提供细致入微的观点和切实可行的建议,还更富人情味。
值得注意的是,K2 Kimi Thinking采用INT4而非FP8精度。
官方解释称,思考模型会产生极长的解码长度,常规量化方法常导致性能下降。为应对这一挑战,他们在后训练阶段采用量化感知训练(QAT),并对MoE组件应用INT4纯权重量化。
这使得Kimi K2 Thinking能在复杂推理和Agentic任务中支持原生INT4推理,并将生成速度提升约2倍。
此外,INT4对推理硬件的兼容性更强,对国产加速计算芯片更友好。
注:Blackwell之前的英伟达GPU不支持FP4。
更多测试实例可参考官方技术博客,我们也进行了简单测试(仅开启长思考模式,未联网)。
经典题目:
一根7米长的甘蔗如何通过1×2米的门
经过近5分钟思考,Kimi给出的回答是:
思考时间较长,但Kimi K2 Thinking成功规避了题目陷阱,认识到门的尺寸并不限制甘蔗通过。
编程测试题目:
编写一个Python程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律
这一次,Kimi K2 Thinking迅速开始编写代码。
您觉得这个表现如何?
如果您已进行实测,欢迎在评论区分享更多测试结果~
项目地址:https://huggingface.co/moonshotai/Kimi-K2-Thinking
技术博客链接:https://moonshotai.github.io/Kimi-K2/thinking.html
参考链接:
[1]https://x.com/Kimi_Moonshot/status/1986449512538513505
[2]https://x.com/ArtificialAnlys/status/1986541785511043536
[3]https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA
本文由主机测评网于2026-01-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119189.html