当前位置:首页 > 科技资讯 > 正文

月之暗面Kimi K2系列模型:创新、挑战与未来展望

智东西最新报道,今日凌晨,月之暗面核心团队在Reddit上举办了一场问答活动,月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后,对模型训练成本、性能与体验差异等热门话题进行了正面回应。

关于Kimi K2 Thinking模型460万美元训练成本的传闻,杨植麟澄清,这并非官方数据,训练成本难以量化,其中大部分用于研究和实验。他还透露,月之暗面正在研发K2的VL(视觉-语言)版本。

月之暗面Kimi K2系列模型:创新、挑战与未来展望 Kimi K2 模型训练 开源 AGI 第1张

众多海外网友提出了尖锐问题,例如Kimi K2 Thinking推理时间过长,榜单成绩与实际体验不符等。杨植麟解释,当前模型优先保证绝对性能,token效率将在后续改进。榜单高分与实测不符的问题,也将在模型通用能力提升后得到改善。

10月底,月之暗面开源了混合线性注意力架构Kimi Linear,首次在多种场景中超越全注意力机制,吸引大量开发者关注。杨植麟表示,Kimi Linear的KDA混合线性注意力模块可能以某种形式出现在K3中。

当被问及K3发布时间时,杨植麟幽默回应:“在Sam价值万亿美元的数据中心建成之前。”

月之暗面Kimi K2系列模型:创新、挑战与未来展望 Kimi K2 模型训练 开源 AGI 第2张

月之暗面团队在另一评论中调侃了OpenAI。当被问是否有AI浏览器开发计划时,月之暗面联合创始人兼算法团队负责人周昕宇表示,打造优秀模型无需再套一层Chromium壳。对于OpenAI烧钱问题,周昕宇称:“这是Sam才知道的秘密。我们有自己的步伐。”

面对“开源是否带来安全风险”的疑问,杨植麟回应,开放安全对齐技术栈有助于研究者在微调开源模型时保持安全。同时强调需要建立机制,确保后续工作遵循安全协议。

他还补充道:“我们拥抱开源,因为对AGI(通用人工智能)的追求应带来团结而非分裂。”

月之暗面联合创始人吴育昕也参与了问答,与杨植麟、周昕宇围绕Kimi系列模型的架构创新、训练细节、开源策略及未来规划进行了交流。

01.K2 Thinking重性能,独特文风背后有诀窍

活动中,焦点是Kimi K2 Thinking模型,这是月之暗面最新发布的开源推理模型。

有网友测试后称,Kimi K2 Thinking正确率领先GPT-5 Thinking,但推理时间较长。对此,杨植麟表示,他们正积极优化token使用效率。当前版本优先保证绝对性能而非token效率。

月之暗面Kimi K2系列模型:创新、挑战与未来展望 Kimi K2 模型训练 开源 AGI 第3张

有用户质疑Kimi K2 Thinking是否经过专门训练以在HLE测试中取得好成绩。杨植麟回应称,该模型在提升智能体推理能力方面取得进展,使其在HLE测试中得分较高。月之暗面正努力提升其通用能力。

有用户问:“为何K2 Thinking能在一次推理中保持长思维链而GPT-5不行?”

杨植麟解释:“推理时间取决于API吞吐,而推理token数量取决于模型训练方式。我们在训练时倾向于使用更多思考token以获最佳效果。”

关于Kimi K2系列模型独特的文风,吴育昕表示,这种写作风格是模型后训练数据和评估的重要组成部分。

谈及KDA,杨植麟称其在长输入和长输出任务上展示性能提升。周昕宇进一步解释KDA对比优势,结合NoPE MLA后表现优于采用RoPE的完整MLA。

02.“被封禁”已超出控制范围,上下文窗口将进一步扩展

三位联合创始人还回应了模型服务、开源等相关话题。有用户称Kimi在公司成为主要测试模型但生产环境会切换至美国本土模型。吴育昕回应称,“虽然被‘封禁’超出控制范围,但开源该模型有望成为消除顾虑的有效途径。”

月之暗面Kimi K2系列模型:创新、挑战与未来展望 Kimi K2 模型训练 开源 AGI 第4张

上下文是影响AI模型在生产环境应用的重要因素。目前Kimi K2 Thinking最大支持256K上下文。杨植麟表示未来版本将增加上下文长度。

03.结语:中国AI创新能力获得认可

从海外开发者的热烈提问和反馈中可见,以Kimi系列为代表的中国模型正受到前所未有的关注。

月之暗面此次在Reddit的问答活动集中回应了全球网友对Kimi技术细节的大量兴趣和疑问。这种关注背后也折射出全球开发者对中国AI创新能力的认可。