当前位置:首页 > 科技资讯 > 正文

揭秘Kimi K2:万亿级开源大模型的革新与突破

最近,月之暗面震撼发布了其最新力作——Kimi K2,一款参数量达万亿级别的开源大模型,迅速在业内掀起轩然大波。

Kimi K2不仅在各种基准测试中表现出色,还赢得了全球开发者的一致好评。在LMSYS的开源模型排行榜(LMArena)上,Kimi K2更是傲视群雄,荣登榜首。

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第1张

第一列是开源模型内的排名,前四名均为国产开源模型,Kimi K2独占鳌头;第二列则是所有(开源和闭源)模型中的排名。图片来源:https://lmarena.ai/leaderboard/text

尽管有人质疑Kimi K2是否在抄袭DeepSeek,但Kimi团队坦然承认是在DeepSeek V3的基础上进行了改进。

有细心的网友甚至对比了两者的架构,并指出了它们的细微差别。

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第2张

Kimi K2发布后,网友整理了DeepSeek V3和Kimi K2的模型架构对比图。图片来源:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison

Kimi K2发布后,又发布了其技术报告,可谓干货满满。我迅速浏览了一遍,发现关键词包括:万亿参数的混合专家模型、让训练更稳定的MuonClip优化器、被不断强调的Agentic智能,以及自我批评式的通用强化学习……

当我翻到附录时,发现了一张有趣的作者列表,除了月之暗面创始人杨植麟的名字外,竟然还有……

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第3张

Kimi K2技术报告作者页面

Kimi K2……自己也是作者之一?

我不禁有些恍惚,这是把你「造」出来,你还参与了如何「造出你」的论文撰写?

既然如此,我还研究什么?直接问他就好了!

于是,我把这份技术报告交给Kimi K2来分析,看看它能否为我们解答Kimi K2到底做了什么。

于是,这篇文章变成了:我,把技术报告丢给了Kimi K2,让它「揭秘」它自己。

Kimi K2:为「智能体时代」奠基的万亿级开源大模型——《Kimi K2 Technical Report》深度解读

从「会聊天」到「能干活」:为什么需要新一代大模型

过去两年,大模型的竞争焦点集中在「谁能把考试题刷得更高」,但真实世界的需求正在迅速转向「谁能像人一样干活」。

从自动修复代码漏洞、跨工具协同办公,到自主完成科研实验,业界将这种「感知-规划-执行-反思」的闭环能力称为Agentic Intelligence(智能体智能)。

Kimi K2正是这一范式切换下的首个系统性成果:它不仅要会做题,更要在复杂、动态、多工具环境中像「实习生」一样自我进化。

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第4张

速看省流版:

技术层面:MuonClip优化器、稀疏MoE架构、改写数据策略共同给出了「高质量数据稀缺」时代的超大规模训练新范式;

数据层面:合成+真实混合环境的十万个工具轨迹为社区提供了可复现、可扩展的智能体数据生产线;

开源层面:1T参数的base+instruct权重全部放出,相当于把一辆F1赛车开源给了所有工程师。

模型一览:万亿总参数、320亿激活的「稀疏巨人」

规模:总参数1.04T,激活参数32B,MoE(混合专家)架构,稀疏度48(每token只激活8/384位专家);DeepSeek V3的参数总量是6710亿,其中激活参数量为370亿。

训练数据:15.5T token,涵盖网页、代码、数学、知识四大领域,全部经过质量清洗与「改写法」(数据增强技术,增加数据多样性)扩增。

训练稳定:首次在大规模模型训练过程中,损失函数没有发生任何大的波动或异常,这要归功于新优化器MuonClip。

上下文窗口:128K token,满足长文档、多轮工具调用的需求。

MuonClip:大规模模型超高效训练方法

Muon优化器以训练效率高著称,但在参数规模较大时,可能会出现注意力权重爆炸的问题,即logits值过大,导致训练不稳定。

作者提出将QK-Clip机制融合到Muon优化器中。QK-Clip能够在logit过大时自动进行调节;同时,不会改变网络结构,对模型干预极小,但作用极大。

注意力权重爆炸问题大多出现在超大规模的大模型训练中,这也是此次Kimi K2万亿参数能够成功训练的重要突破之一。

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第5张

没有使用QK-Clip的Muon优化器在训练时无法控制logits数值,导致大模型训练不稳定;而Kimi K2的MuonClip在整个训练过程中都能很好地控制logits。

实验显示,MuonClip在中等规模(90亿激活参数)时就可抑制logits超过1000,在K2全量训练中全程没有不稳定和优化问题出现,始终确保了训练的稳定性。

文本数据:合成数据+真实数据双buff

高质量数据越来越稀缺,而简单多轮重复读取容易导致模型过拟合。Kimi K2提出两套改写策略:

知识文本:用LLM以不同风格、视角重写维基百科,同时保持语义一致性自动校验;例如把「光合作用」改写成「植物如何制造养分的侦探故事」。

数学文本:按「学习笔记」风格重写并多语种翻译。

揭秘Kimi K2:万亿级开源大模型的革新与突破 Kimi K2 开源大模型 MuonClip优化器 Agentic智能 第6张

数据改写流程将输入拆分为保留上下文的小块,按顺序重写后拼接成完整的重写段落。

Kimi K2也在多个实验进行了测试,结果显示一次改写+单轮训练的准确率(28.94%)优于原始文本反复读取十轮(23.76%)。