最近,月之暗面震撼发布了其最新力作——Kimi K2,一款参数量达万亿级别的开源大模型,迅速在业内掀起轩然大波。
Kimi K2不仅在各种基准测试中表现出色,还赢得了全球开发者的一致好评。在LMSYS的开源模型排行榜(LMArena)上,Kimi K2更是傲视群雄,荣登榜首。
第一列是开源模型内的排名,前四名均为国产开源模型,Kimi K2独占鳌头;第二列则是所有(开源和闭源)模型中的排名。图片来源:https://lmarena.ai/leaderboard/text
尽管有人质疑Kimi K2是否在抄袭DeepSeek,但Kimi团队坦然承认是在DeepSeek V3的基础上进行了改进。
有细心的网友甚至对比了两者的架构,并指出了它们的细微差别。
Kimi K2发布后,网友整理了DeepSeek V3和Kimi K2的模型架构对比图。图片来源:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison Kimi K2发布后,又发布了其技术报告,可谓干货满满。我迅速浏览了一遍,发现关键词包括:万亿参数的混合专家模型、让训练更稳定的MuonClip优化器、被不断强调的Agentic智能,以及自我批评式的通用强化学习…… 当我翻到附录时,发现了一张有趣的作者列表,除了月之暗面创始人杨植麟的名字外,竟然还有…… Kimi K2技术报告作者页面 Kimi K2……自己也是作者之一? 我不禁有些恍惚,这是把你「造」出来,你还参与了如何「造出你」的论文撰写? 既然如此,我还研究什么?直接问他就好了! 于是,我把这份技术报告交给Kimi K2来分析,看看它能否为我们解答Kimi K2到底做了什么。 于是,这篇文章变成了:我,把技术报告丢给了Kimi K2,让它「揭秘」它自己。 Kimi K2:为「智能体时代」奠基的万亿级开源大模型——《Kimi K2 Technical Report》深度解读 从「会聊天」到「能干活」:为什么需要新一代大模型 过去两年,大模型的竞争焦点集中在「谁能把考试题刷得更高」,但真实世界的需求正在迅速转向「谁能像人一样干活」。 从自动修复代码漏洞、跨工具协同办公,到自主完成科研实验,业界将这种「感知-规划-执行-反思」的闭环能力称为Agentic Intelligence(智能体智能)。 Kimi K2正是这一范式切换下的首个系统性成果:它不仅要会做题,更要在复杂、动态、多工具环境中像「实习生」一样自我进化。 速看省流版: 技术层面:MuonClip优化器、稀疏MoE架构、改写数据策略共同给出了「高质量数据稀缺」时代的超大规模训练新范式; 数据层面:合成+真实混合环境的十万个工具轨迹为社区提供了可复现、可扩展的智能体数据生产线; 开源层面:1T参数的base+instruct权重全部放出,相当于把一辆F1赛车开源给了所有工程师。 模型一览:万亿总参数、320亿激活的「稀疏巨人」 规模:总参数1.04T,激活参数32B,MoE(混合专家)架构,稀疏度48(每token只激活8/384位专家);DeepSeek V3的参数总量是6710亿,其中激活参数量为370亿。 训练数据:15.5T token,涵盖网页、代码、数学、知识四大领域,全部经过质量清洗与「改写法」(数据增强技术,增加数据多样性)扩增。 训练稳定:首次在大规模模型训练过程中,损失函数没有发生任何大的波动或异常,这要归功于新优化器MuonClip。 上下文窗口:128K token,满足长文档、多轮工具调用的需求。 MuonClip:大规模模型超高效训练方法 Muon优化器以训练效率高著称,但在参数规模较大时,可能会出现注意力权重爆炸的问题,即logits值过大,导致训练不稳定。 作者提出将QK-Clip机制融合到Muon优化器中。QK-Clip能够在logit过大时自动进行调节;同时,不会改变网络结构,对模型干预极小,但作用极大。 注意力权重爆炸问题大多出现在超大规模的大模型训练中,这也是此次Kimi K2万亿参数能够成功训练的重要突破之一。 没有使用QK-Clip的Muon优化器在训练时无法控制logits数值,导致大模型训练不稳定;而Kimi K2的MuonClip在整个训练过程中都能很好地控制logits。 实验显示,MuonClip在中等规模(90亿激活参数)时就可抑制logits超过1000,在K2全量训练中全程没有不稳定和优化问题出现,始终确保了训练的稳定性。 文本数据:合成数据+真实数据双buff 高质量数据越来越稀缺,而简单多轮重复读取容易导致模型过拟合。Kimi K2提出两套改写策略: 知识文本:用LLM以不同风格、视角重写维基百科,同时保持语义一致性自动校验;例如把「光合作用」改写成「植物如何制造养分的侦探故事」。 数学文本:按「学习笔记」风格重写并多语种翻译。 数据改写流程将输入拆分为保留上下文的小块,按顺序重写后拼接成完整的重写段落。 Kimi K2也在多个实验进行了测试,结果显示一次改写+单轮训练的准确率(28.94%)优于原始文本反复读取十轮(23.76%)。
本文由主机测评网于2026-04-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437904.html