文|邓咏仪
编辑|苏建勋
继K2 Thinking发布后,全球热议不断。北京时间11月11日凌晨,月之暗面创始人杨植麟及其合伙人周昕宇、吴育昕,在Reddit社区进行了长达数小时的线上AMA(Ask Me Anything)环节,解答新模型相关问题。
这是数位联创首次共同露面,展示了Kimi团队在模型技术上的深耕。
Kimi如今愈发安静,新模型发布延续了低调路线:避开线下发布会,直接通过社区发布模型。
团队主创选择在Reddit、知乎上回答问题,与Kimi现在的开源路线一致——这些社区都是AI从业者和极客聚集地。
△Kimi K2 Thinking发布讨论
△未来会发布更大规模的闭源模型吗?一个含蓄的回答:如果模型变得越来越危险的话:)
Kimi团队坦诚回应了技术讨论,甚至幽默地回应了最近的AI泡沫。
△月之暗面联合创始人周昕宇
新发布的K2 Thinking,是一个高达1万亿参数、稀疏混合专家(MoE)架构的模型,这在开源模型中实属巨大。
在多个前沿基准测试中,K2 Thinking表现出色,尤其在推理和任务执行上。
在难度极高的测试集HLE和BrowseComp等Agent榜单上,K2 Thinking的分数甚至超过了GPT-5。
K2 Thinking继承了DeepSeek的架构设计,并在此基础上进行了更多创新,如参数放大和INT4等新量化手段。
从价格上看,K2 Thinking具有巨大的成本优势,其百万token输出价格为2.5美元,仅为GPT-5的四分之一,被很多人称为GPT-5和Claude Sonnet 4.5的“平替”。
“这是又一次DeepSeek式的辉煌时刻吗?”K2 Thinking发布后,Hugging Face联合创始人Thomas Wolf在X上感慨。
在AMA环节及知乎社区中,不少开发者认为K2 Thinking很“话唠”。虽然便宜,但Token消耗巨大。
“话唠”,其实是为了让AI能完成更多任务。
从K2到K2 Thinking,设计都围绕这一点:专注Agentic能力,让AI不仅聊天,还能真正完成任务。
尽管K2 Thinking参数高达万亿,但大体量并非为了炫技,而是希望模型能囊括更多知识,有利于理解和执行任务。同时,实际运行时激活参数控制在300亿,保证了速度和效率。
无论是Kimi K2 Thinking还是GLM、MiniMax M2,都显示了在基础设施受限和Claude断供的情况下,国产大模型在算法创新上的加速。
关于训练成本,杨植麟明确表示460万美元并非官方数字,并指出培训成本难以量化。
可以肯定的是,K2 Thinking在有限条件下完成。杨植麟表示,K2 Thinking在配备Infiniband的H800 GPU上进行训练。
MiniMax和月之暗面面对“如何高效处理长上下文”给出了不同选择。
MiniMax的M2选择了全注意力机制,而Kimi则选择了更激进的路径。
“各家公司的打法开始出现明显分化。”智谱GLM抢占了不少Claude断供后的市场。
Q:460万美元训练成本是真的吗?
A:这不是一个官方数字。培训成本难以量化,因为还包括研究和实验。
Q:你们的训练硬件配置是怎样的?
A:我们用的是配备Infiniband的H800 GPU。虽然不如美国的高端GPU,但我们充分利用了每一张卡!
本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544292.html