根据智东西11月11日消息,今日凌晨,月之暗面核心团队在社交平台Reddit上举办了一场有问必答(AMA)活动,月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后,迅速回应了模型训练成本、跑分与实际体验差异等热点话题。
关于Kimi K2 Thinking模型训练成本仅为460万美元的网络传言广泛流传,但杨植麟已澄清,这并非官方数据,训练成本难以精确量化,因为其中大量资源投入于研究和实验。他还透露,月之暗面已在研发K2的VL(视觉-语言)版本。
众多海外网友提出了尖锐问题,如Kimi K2 Thinking推理过程过长、榜单成绩与实际体验不匹配等。杨植麟解释称,当前模型优先关注绝对性能,token效率将在后续优化。榜单高分与实测的差距,也会随着模型通用能力提升而改善。
10月底,月之暗面开源了混合线性注意力架构Kimi Linear,首次在短上下文、长上下文、强化学习扩展等场景中超越全注意力机制,吸引了开发者关注。杨植麟表示,Kimi Linear的KDA混合线性注意力模块,很可能以某种形式集成到K3中。
当网友询问K3发布时间时,杨植麟幽默回应:“在Sam价值万亿美元的数据中心建成之前。”
月之暗面团队还在其他评论中调侃了OpenAI。网友问及是否有AI浏览器开发计划时,月之暗面联合创始人兼算法团队负责人周昕宇说,打造更优模型无需额外套用Chromium壳。对于OpenAI为何烧钱,周昕宇称:“只有Sam知道答案。我们有自己的节奏和方式。”
针对“开源是否会带来安全风险”的提问,杨植麟回应,开放安全对齐技术栈有助于研究者在微调开源模型时保持安全性,同时需建立机制确保后续工作遵循安全协议。
他在另一条评论中补充:“我们拥抱开源,因为相信对AGI(通用人工智能)的追求应促进团结,而非分裂。”
月之暗面联合创始人吴育昕也参与了问答,杨植麟、周昕宇、吴育昕就Kimi系列模型的架构创新、训练细节、开源策略及未来规划与网友深入交流。
此次活动中,Kimi K2 Thinking模型成为焦点,这是月之暗面最新推出的开源推理模型。
有网友测试发现,Kimi K2 Thinking相比GPT-5 Thinking正确率更高,但推理时间更长,仿佛不断自我复查。杨植麟称,团队正优化token使用效率。当前版本更侧重绝对性能而非token效率。月之暗面将尝试把效率纳入奖励机制,让模型学习简化思考过程。
还有网友质疑,Kimi K2 Thinking是否针对HLE基准测试专门训练?其高分与实际智能水平似乎不符。
杨植麟回应,Kimi K2 Thinking在提升智能体推理能力方面取得进展,因此在HLE测试中得分较高。月之暗面正努力增强其通用能力,以在实际应用中更好发挥智能。
另有网友问:“为何K2 Thinking能维持长思维链,而GPT-5不能?”
杨植麟解释:“推理时间取决于API吞吐,推理token数量则取决于训练方式。我们训练Kimi K2 Thinking时倾向于使用更多思考token以达到最佳效果。我们的Turbo API速度更快,且Kimi K2 Thinking原生采用INT4,提升了推理速度。”
Kimi K2 Thinking是纯文本模型,网友问这是短期权衡还是长期投资?杨植麟称,获取正确VL数据和训练需时间,因此先发布文本模型。
Kimi K2系列模型直接、不奉承的文风在AI界独树一帜,获网友认可。吴育昕表示,这种写作风格是模型后训练数据和评估的关键部分。
谈到KDA,杨植麟说,历史上混合注意力在长输入输出任务中难超全注意力。KDA在所有维度展示性能提升,包括长思维链RL场景,同时保持线性注意力高效性。
另一网友希望KDA结合扩散模型使用。杨植麟认为可行,但文本扩散较困难,可能因文本扩散缺乏足够好先验。
周昕宇从技术层面解释KDA优势。他称,KDA混合架构结合NoPE MLA后,在预训练和强化学习阶段均优于采用RoPE的完整MLA。不仅基准得分更高,且更快、更经济,助力高效训练、部署和服务用户。未来将有进一步改进,成熟后公开。
近期,DeepSeek、智谱曾探索以视觉输入提升效率。但周昕宇称,他认为此法过于刻意,更倾向探索特征空间,寻找更通用、模态无关的方法提高模型效率。
此前,月之暗面在模型中采用Muon优化器,网友认为这优化器未经充分测试,决策略显大胆。
周昕宇解释采用Muon历程。他说,Muon虽未经其他厂商测试,但月之暗面已通过所有扩展测试。团队对研究成果有信心,网友或以为Muon靠运气,实则数十种优化器和架构未通过类似考验。
月之暗面三位联合创始人还回应了模型服务、开源等疑问。有网友称,Kimi在其公司是主要测试模型,但生产环境切回美国本土模型,因领导层担心Kimi作为“中国大模型”或有风险。
该网友分享,很喜欢Kimi App,一位亚马逊工作的朋友也喜欢,但亚马逊规定必须使用自家AI助手,禁用其他主流AI助手App。网友担心随着Kimi知名度提升,或无法在工作场合使用。
吴育昕回应:“虽‘封禁’常超我们控制范围,但开源模型有望消除部分顾虑(企业可自行部署)。我们希望世界更信任,但这需时间。”
上下文是影响AI模型生产应用的关键因素。目前,Kimi K2 Thinking最大支持256K上下文,网友反馈这对大型代码库不足。杨植麟称,月之暗面应在未来版本增加上下文长度。
还有网友希望将上下文窗口提至100万token,周昕宇回复,月之暗面曾尝试100万token上下文窗口,但服务成本过高。未来会重新考虑更长窗口。
当被问及AI浏览器开发计划,周昕宇犀利回应:打造更好模型无需再套Chromium壳。杨植麟称,月之暗面当前专注模型训练,但会持续更新kimi.com,集成最新功能。
不少网友希望推出更小规模模型。杨植麟说,Kimi-Linear-48B-A3B-Instruct是已发布的小型模型之一,未来可能训练更多模型并添加功能。
目前,Kimi提供编程订阅方案,基于API请求次数计费,网友称此模式资源消耗偏高。月之暗面回应,API请求计费让用户看清费用明细,更符合企业成本结构。但将尽快寻找更好方案。
从海外开发者热烈提问和尖锐反馈可见,以Kimi系列为代表的中国模型正获空前关注。
月之暗面此次Reddit公开问答,集中回应了全球网友对Kimi技术细节的诸多疑问。这种关注背后,也折射出全球开发者对中国AI创新能力的肯定。
本文由主机测评网于2026-01-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119559.html