“这是否标志着另一个类似DeepSeek的辉煌时刻?开源软件再次在关键性能指标上超越了闭源解决方案。”
2025年11月6日,Hugging Face联合创始人Thomas Wolf于X平台发表的感慨,精准地总结了Kimi K2 Thinking模型发布后在整个科技界引发的热烈讨论。
Kimi K2 Thinking在众多权威基准测试中都取得了令人瞩目的成绩,不仅追平了当前最先进的闭源模型,在某些领域甚至实现了反超。举例来说,在HLE(Humanity"s Last Exam)纯文本子集的基准评估中,其工具增强版本的得分高达44.9%,显著超越了GPT-5模型41.7%的表现。
Kimi K2 Thinking是基于Kimi K2模型进一步训练而成的,特别专注于提升智能体(Agentic)能力和复杂推理能力。这是一个总参数量达到1万亿的混合专家模型,每次推理时激活约320亿参数,支持256k的上下文长度,并且采用了原生的INT4量化技术。其设计核心是在维持庞大模型规模的同时,有效控制计算开销和训练成本。根据CNBC引用内部知情人士的信息,该模型的训练成本仅为460万美元。作为对比,DeepSeek公布的V3模型训练成本(租赁价,正式训练阶段)为560万美元,R1则为29.4万美元。这些成本主要考虑了GPU预训练费用,未包含研发、基础设施等其他投入。
Kimi K2 Thinking的一个标志性特性是其强大的智能体能力,官方声称它能够连续执行多达200至300次工具调用来解决复杂问题。虽然Grok-4等闭源模型广泛采用强化学习来提升工具使用与长程规划能力,但在开源模型中看到如此程度的实现尚属首次。这表明开源社区正在迅速跟进智能体技术的前沿发展,同时也对模型托管与服务基础设施提出了更高的要求。
目前,Kimi K2 Thinking尚未发布详细的技术报告,仅提供了技术博客和使用文档,其训练数据、强化学习细节或具体配方并未公开。模型发布后不久,技术社区内关于其模型架构本身的探讨便开始涌现。在X和Reddit等平台上,一张将其与DeepSeek模型架构并排对比的图表开始流传,引发了关于其技术渊源的热议。
在DeepSeek的R2模型“难产”已久、社区翘首以盼的背景下,Kimi推出了一个在架构上存在明显继承关系且同样属于开源SOTA推理模型的成果,不禁让人产生一种错觉:仿佛Kimi是替DeepSeek发布了R2。
LLM研究工程师Sebastian Raschka对此进行了细致的剖析,他在Threads上指出了两者之间的具体异同:
• 每个MoE层中的专家数量增加了约1.5倍(384对比256)
• 使用了更大的词汇表(160k对比129k)
• K2每个token激活约320亿参数(DeepSeek R1为370亿)
• MoE层之前的密集前馈网络块数量更少
“简而言之,Kimi K2本质上是一个在规模上稍作调整的DeepSeek V3/R1。它的主要改进体现在训练数据和训练配方上。”
Raschka的分析揭示了一个关键事实:Kimi K2 Thinking对DeepSeek核心架构的“继承”是显而易见的,包括MoE机制、MLA(多头潜在注意力)等关键设计。这是在一個已经过验证的高效基座上,根据自身目标进行的针对性调整和优化。例如,减少注意力头和激活参数量旨在降低推理成本;而增加专家数量和词汇表则是为了增强模型的知识容量和表达能力。这种“站在巨人肩膀上”的策略,是开源精神最生动的体现。
除了对DeepSeek架构的继承,Kimi K2 Thinking的成功也离不开对整个开源生态成果的广泛“集成与化用”。从底层用于加速注意力计算的FlashAttention,到K2技术博客中提到的、为解决训练不稳定性而改进的MuonClip优化器,再到各种数据处理和后训练方法论,都凝聚了开源社区的集体智慧。
如果说架构和开源技术构成了模型的骨架,那么让其变得强大可用的,则是月之暗面团队自身的工程实现能力。这主要体现在三个层面:
1. 训练稳定性:在长达15.5万亿tokens的预训练过程中,Kimi K2 Thinking实现了“零损失尖峰”。这意味着训练过程异常平稳,无需因模型崩溃而进行代价高昂的回滚操作。对于万亿参数规模的模型而言,这是一项值得称道的工程成就。
2. 原生量化推理:Kimi K2 Thinking支持原生INT4量化推理,据称能在性能损失极小的前提下,将推理速度提升约2倍,并大幅降低部署所需的GPU显存。这是将庞大参数模型从研究领域推向实际应用的关键一步。
3. 长程任务执行:模型能够稳定执行200-300轮工具调用,这不仅考验了模型自身的推理与规划能力,也检验了其背后系统的整体鲁棒性。在长达数百步的交互过程中,模型必须能妥善处理各种潜在异常,这需要一套复杂的工程机制作为支撑。
Kimi团队在选择与整合这些开源技术时的具体决策,及其工程团队卓越的执行能力,共同构成了Kimi K2 Thinking取得当前成果的基石。这种技术路线与成功范式,让许多人回想起了当初R1发布时的情景。它承接了DeepSeek的MLA+MoE高效架构与“可验证任务优先”的数据/奖励取向,并通过工程手段(如MuonClip、长上下文支持、完善工具链)将能力做实做稳。不同之处在于,K2 Thinking的开放形态与目标更侧重于实际应用交付。
对Kimi K2 Thinking的全面审视,不能仅仅停留在基准测试的分数上。一个无法绕开的话题是其优异成绩的来源。Kimi K2 Thinking在技术博客中展示的许多SOTA分数,是基于一个特殊的“Heavy”模式获得的。根据官方在Hugging Face上的说明,这个模式通过并行运行多达8个推理实例,然后通过反思性聚合所有输出来生成最终结果。这种做法在学术界和模型竞赛中相当常见。例如,在今年7月9日Grok 4的发布会上,xAI公布Grok 4 Heavy的HLE总得分为44.4%,纯文本子集得分则为50.7%。
这种Heavy模式也带来一些值得思考的问题:一是资源消耗巨大,普通用户通过API或本地部署几乎不可能复现这种性能;二是它造成了基准测试分数与模型单实例真实能力之间的感知差距。用户实际能够体验到的标准模式,与榜单上的“野兽模式”并非同一回事。
对效率的极致追求,也体现在模型底层的诸多工程决策中,而这些决策往往遵循着性能与成本交换的基本原则。例如,模型采用的原生INT4量化,虽然官方宣称性能损失极小,但从FP16到INT4的精度压缩幅度是巨大的。这种量化在标准评测集上可能表现良好,但在更长、更复杂的推理链条中,精度损失的累积效应是否会影响复杂任务的最终成功率,仍有待更广泛的实际应用来检验。
同样,将注意力头数量从128个减少到64个,也是Kimi团队为降低内存带宽和计算开销做出的主动选择。但K2技术博客也承认,更多的注意力头通常能带来更好的模型质量。这意味着,Kimi K2为了达成更高的推理效率,在模型的某些潜在能力上做出了一定的妥协。
Kimi K2 Thinking对智能体能力的重点押注,也带来了其他维度的局限性。官方公布的基准测试显示,K2 Thinking在“智能体推理”和“智能体搜索”两项指标上超越了OpenAI与Anthropic的顶级模型,但在“编程能力”方面尚未达到顶峰。
在当前前沿模型纷纷将多模态作为标准配置的时代,Kimi K2 Thinking仍然是一个纯文本模型。这种差异在处理涉及视觉或空间推理的任务时尤为明显。例如,在生成一个“鹈鹕骑自行车”的SVG图像这类任务上,纯文本模型可能会因为缺乏对物理世界的基本视觉理解而遇到挑战:
Kimi K2 Thinking生成的SVG图像示例
Kimi K2 Thinking的发布,给人的感觉就像是开源AI社区的又一次集体盛宴。它站在DeepSeek等优秀开源成果的肩膀上,明确了自身在当前阶段最重要的性能目标,对架构细节进行改进,对训练效率进行优化,最终得到了一个在当今最关键技术方向上能够超越闭源最强模型的新开源标杆。这个模型不仅回馈和启发了整个开源社区,同时也是Kimi构建下一代更强大、更完整模型的重要拼图——也许下一次“DeepSeek时刻”并不遥远,而且它可能真的无需由DeepSeek自己来创造。
本文由主机测评网于2026-01-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119338.html