当前位置：首页 > 科技资讯 > 正文

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望

主机测评网
科技资讯
2026-01-22
353

根据智东西11月11日消息，今日凌晨，月之暗面核心团队在社交平台Reddit上举办了一场有问必答（AMA）活动，月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后，迅速回应了模型训练成本、跑分与实际体验差异等热点话题。

关于Kimi K2 Thinking模型训练成本仅为460万美元的网络传言广泛流传，但杨植麟已澄清，这并非官方数据，训练成本难以精确量化，因为其中大量资源投入于研究和实验。他还透露，月之暗面已在研发K2的VL（视觉-语言）版本。

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望月之暗面 Kimi Thinking 模型训练开源AI 第1张

众多海外网友提出了尖锐问题，如Kimi K2 Thinking推理过程过长、榜单成绩与实际体验不匹配等。杨植麟解释称，当前模型优先关注绝对性能，token效率将在后续优化。榜单高分与实测的差距，也会随着模型通用能力提升而改善。

10月底，月之暗面开源了混合线性注意力架构Kimi Linear，首次在短上下文、长上下文、强化学习扩展等场景中超越全注意力机制，吸引了开发者关注。杨植麟表示，Kimi Linear的KDA混合线性注意力模块，很可能以某种形式集成到K3中。

当网友询问K3发布时间时，杨植麟幽默回应：“在Sam价值万亿美元的数据中心建成之前。”

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望月之暗面 Kimi Thinking 模型训练开源AI 第2张

月之暗面团队还在其他评论中调侃了OpenAI。网友问及是否有AI浏览器开发计划时，月之暗面联合创始人兼算法团队负责人周昕宇说，打造更优模型无需额外套用Chromium壳。对于OpenAI为何烧钱，周昕宇称：“只有Sam知道答案。我们有自己的节奏和方式。”

针对“开源是否会带来安全风险”的提问，杨植麟回应，开放安全对齐技术栈有助于研究者在微调开源模型时保持安全性，同时需建立机制确保后续工作遵循安全协议。

他在另一条评论中补充：“我们拥抱开源，因为相信对AGI（通用人工智能）的追求应促进团结，而非分裂。”

月之暗面联合创始人吴育昕也参与了问答，杨植麟、周昕宇、吴育昕就Kimi系列模型的架构创新、训练细节、开源策略及未来规划与网友深入交流。

01.K2 Thinking当前重点在性能，独特文风源自精心设计

此次活动中，Kimi K2 Thinking模型成为焦点，这是月之暗面最新推出的开源推理模型。

有网友测试发现，Kimi K2 Thinking相比GPT-5 Thinking正确率更高，但推理时间更长，仿佛不断自我复查。杨植麟称，团队正优化token使用效率。当前版本更侧重绝对性能而非token效率。月之暗面将尝试把效率纳入奖励机制，让模型学习简化思考过程。

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望月之暗面 Kimi Thinking 模型训练开源AI 第3张

还有网友质疑，Kimi K2 Thinking是否针对HLE基准测试专门训练？其高分与实际智能水平似乎不符。

杨植麟回应，Kimi K2 Thinking在提升智能体推理能力方面取得进展，因此在HLE测试中得分较高。月之暗面正努力增强其通用能力，以在实际应用中更好发挥智能。

另有网友问：“为何K2 Thinking能维持长思维链，而GPT-5不能？”

杨植麟解释：“推理时间取决于API吞吐，推理token数量则取决于训练方式。我们训练Kimi K2 Thinking时倾向于使用更多思考token以达到最佳效果。我们的Turbo API速度更快，且Kimi K2 Thinking原生采用INT4，提升了推理速度。”

Kimi K2 Thinking是纯文本模型，网友问这是短期权衡还是长期投资？杨植麟称，获取正确VL数据和训练需时间，因此先发布文本模型。

Kimi K2系列模型直接、不奉承的文风在AI界独树一帜，获网友认可。吴育昕表示，这种写作风格是模型后训练数据和评估的关键部分。

谈到KDA，杨植麟说，历史上混合注意力在长输入输出任务中难超全注意力。KDA在所有维度展示性能提升，包括长思维链RL场景，同时保持线性注意力高效性。

另一网友希望KDA结合扩散模型使用。杨植麟认为可行，但文本扩散较困难，可能因文本扩散缺乏足够好先验。

周昕宇从技术层面解释KDA优势。他称，KDA混合架构结合NoPE MLA后，在预训练和强化学习阶段均优于采用RoPE的完整MLA。不仅基准得分更高，且更快、更经济，助力高效训练、部署和服务用户。未来将有进一步改进，成熟后公开。

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望月之暗面 Kimi Thinking 模型训练开源AI 第4张

近期，DeepSeek、智谱曾探索以视觉输入提升效率。但周昕宇称，他认为此法过于刻意，更倾向探索特征空间，寻找更通用、模态无关的方法提高模型效率。

此前，月之暗面在模型中采用Muon优化器，网友认为这优化器未经充分测试，决策略显大胆。

周昕宇解释采用Muon历程。他说，Muon虽未经其他厂商测试，但月之暗面已通过所有扩展测试。团队对研究成果有信心，网友或以为Muon靠运气，实则数十种优化器和架构未通过类似考验。

02.“封禁”问题超可控范围，上下文窗口将扩展

月之暗面三位联合创始人还回应了模型服务、开源等疑问。有网友称，Kimi在其公司是主要测试模型，但生产环境切回美国本土模型，因领导层担心Kimi作为“中国大模型”或有风险。

该网友分享，很喜欢Kimi App，一位亚马逊工作的朋友也喜欢，但亚马逊规定必须使用自家AI助手，禁用其他主流AI助手App。网友担心随着Kimi知名度提升，或无法在工作场合使用。

吴育昕回应：“虽‘封禁’常超我们控制范围，但开源模型有望消除部分顾虑（企业可自行部署）。我们希望世界更信任，但这需时间。”

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望月之暗面 Kimi Thinking 模型训练开源AI 第5张

上下文是影响AI模型生产应用的关键因素。目前，Kimi K2 Thinking最大支持256K上下文，网友反馈这对大型代码库不足。杨植麟称，月之暗面应在未来版本增加上下文长度。

还有网友希望将上下文窗口提至100万token，周昕宇回复，月之暗面曾尝试100万token上下文窗口，但服务成本过高。未来会重新考虑更长窗口。

当被问及AI浏览器开发计划，周昕宇犀利回应：打造更好模型无需再套Chromium壳。杨植麟称，月之暗面当前专注模型训练，但会持续更新kimi.com，集成最新功能。

不少网友希望推出更小规模模型。杨植麟说，Kimi-Linear-48B-A3B-Instruct是已发布的小型模型之一，未来可能训练更多模型并添加功能。

目前，Kimi提供编程订阅方案，基于API请求次数计费，网友称此模式资源消耗偏高。月之暗面回应，API请求计费让用户看清费用明细，更符合企业成本结构。但将尽快寻找更好方案。

03.结语：中国AI创新能力获全球认可

从海外开发者热烈提问和尖锐反馈可见，以Kimi系列为代表的中国模型正获空前关注。

月之暗面此次Reddit公开问答，集中回应了全球网友对Kimi技术细节的诸多疑问。这种关注背后，也折射出全球开发者对中国AI创新能力的肯定。

免费vps 免费服务器云服务器

本文由主机测评网于2026-01-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260119559.html

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望

01.K2 Thinking当前重点在性能，独特文风源自精心设计

02.“封禁”问题超可控范围，上下文窗口将扩展

03.结语：中国AI创新能力获全球认可

LatticeFlow AI：引领AI模型风险评估与合规管理的创新解决方案

黄仁勋24小时急赴台积电：英伟达中国市场溃败与产能焦虑

月之暗面Reddit AMA揭秘Kimi K2 Thinking模型进展与未来展望

01.K2 Thinking当前重点在性能，独特文风源自精心设计

02.“封禁”问题超可控范围，上下文窗口将扩展

03.结语：中国AI创新能力获全球认可

LatticeFlow AI：引领AI模型风险评估与合规管理的创新解决方案

黄仁勋24小时急赴台积电：英伟达中国市场溃败与产能焦虑

相关文章