当前位置：首页 > 科技资讯 > 正文

月之暗面Kimi K2系列模型：创新、挑战与未来展望

智东西最新报道，今日凌晨，月之暗面核心团队在Reddit上举办了一场问答活动，月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后，对模型训练成本、性能与体验差异等热门话题进行了正面回应。

关于Kimi K2 Thinking模型460万美元训练成本的传闻，杨植麟澄清，这并非官方数据，训练成本难以量化，其中大部分用于研究和实验。他还透露，月之暗面正在研发K2的VL（视觉-语言）版本。

月之暗面Kimi K2系列模型：创新、挑战与未来展望 Kimi K2 模型训练开源 AGI 第1张

众多海外网友提出了尖锐问题，例如Kimi K2 Thinking推理时间过长，榜单成绩与实际体验不符等。杨植麟解释，当前模型优先保证绝对性能，token效率将在后续改进。榜单高分与实测不符的问题，也将在模型通用能力提升后得到改善。

10月底，月之暗面开源了混合线性注意力架构Kimi Linear，首次在多种场景中超越全注意力机制，吸引大量开发者关注。杨植麟表示，Kimi Linear的KDA混合线性注意力模块可能以某种形式出现在K3中。

当被问及K3发布时间时，杨植麟幽默回应：“在Sam价值万亿美元的数据中心建成之前。”

月之暗面Kimi K2系列模型：创新、挑战与未来展望 Kimi K2 模型训练开源 AGI 第2张

月之暗面团队在另一评论中调侃了OpenAI。当被问是否有AI浏览器开发计划时，月之暗面联合创始人兼算法团队负责人周昕宇表示，打造优秀模型无需再套一层Chromium壳。对于OpenAI烧钱问题，周昕宇称：“这是Sam才知道的秘密。我们有自己的步伐。”

面对“开源是否带来安全风险”的疑问，杨植麟回应，开放安全对齐技术栈有助于研究者在微调开源模型时保持安全。同时强调需要建立机制，确保后续工作遵循安全协议。

他还补充道：“我们拥抱开源，因为对AGI（通用人工智能）的追求应带来团结而非分裂。”

月之暗面联合创始人吴育昕也参与了问答，与杨植麟、周昕宇围绕Kimi系列模型的架构创新、训练细节、开源策略及未来规划进行了交流。

01.K2 Thinking重性能，独特文风背后有诀窍

活动中，焦点是Kimi K2 Thinking模型，这是月之暗面最新发布的开源推理模型。

有网友测试后称，Kimi K2 Thinking正确率领先GPT-5 Thinking，但推理时间较长。对此，杨植麟表示，他们正积极优化token使用效率。当前版本优先保证绝对性能而非token效率。

月之暗面Kimi K2系列模型：创新、挑战与未来展望 Kimi K2 模型训练开源 AGI 第3张

有用户质疑Kimi K2 Thinking是否经过专门训练以在HLE测试中取得好成绩。杨植麟回应称，该模型在提升智能体推理能力方面取得进展，使其在HLE测试中得分较高。月之暗面正努力提升其通用能力。

有用户问：“为何K2 Thinking能在一次推理中保持长思维链而GPT-5不行？”

杨植麟解释：“推理时间取决于API吞吐，而推理token数量取决于模型训练方式。我们在训练时倾向于使用更多思考token以获最佳效果。”

关于Kimi K2系列模型独特的文风，吴育昕表示，这种写作风格是模型后训练数据和评估的重要组成部分。

谈及KDA，杨植麟称其在长输入和长输出任务上展示性能提升。周昕宇进一步解释KDA对比优势，结合NoPE MLA后表现优于采用RoPE的完整MLA。

三位联合创始人还回应了模型服务、开源等相关话题。有用户称Kimi在公司成为主要测试模型但生产环境会切换至美国本土模型。吴育昕回应称，“虽然被‘封禁’超出控制范围，但开源该模型有望成为消除顾虑的有效途径。”

月之暗面Kimi K2系列模型：创新、挑战与未来展望 Kimi K2 模型训练开源 AGI 第4张

上下文是影响AI模型在生产环境应用的重要因素。目前Kimi K2 Thinking最大支持256K上下文。杨植麟表示未来版本将增加上下文长度。

从海外开发者的热烈提问和反馈中可见，以Kimi系列为代表的中国模型正受到前所未有的关注。

月之暗面此次在Reddit的问答活动集中回应了全球网友对Kimi技术细节的大量兴趣和疑问。这种关注背后也折射出全球开发者对中国AI创新能力的认可。

本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544257.html