当前位置:首页 > 科技资讯 > 正文

K2 Thinking再掀AI热潮:低调发布,高参数模型引发全球热议

文|邓咏仪

编辑|苏建勋

继K2 Thinking发布后,全球热议不断。北京时间11月11日凌晨,月之暗面创始人杨植麟及其合伙人周昕宇、吴育昕,在Reddit社区进行了长达数小时的线上AMA(Ask Me Anything)环节,解答新模型相关问题。

这是数位联创首次共同露面,展示了Kimi团队在模型技术上的深耕。

Kimi如今愈发安静,新模型发布延续了低调路线:避开线下发布会,直接通过社区发布模型。

团队主创选择在Reddit、知乎上回答问题,与Kimi现在的开源路线一致——这些社区都是AI从业者和极客聚集地。

K2 Thinking再掀AI热潮:低调发布,高参数模型引发全球热议 Thinking  AI模型 基础设施 国产大模型 第1张

△Kimi K2 Thinking发布讨论

K2 Thinking再掀AI热潮:低调发布,高参数模型引发全球热议 Thinking  AI模型 基础设施 国产大模型 第2张

△未来会发布更大规模的闭源模型吗?一个含蓄的回答:如果模型变得越来越危险的话:)

Kimi团队坦诚回应了技术讨论,甚至幽默地回应了最近的AI泡沫。

K2 Thinking再掀AI热潮:低调发布,高参数模型引发全球热议 Thinking  AI模型 基础设施 国产大模型 第3张

△月之暗面联合创始人周昕宇

新发布的K2 Thinking,是一个高达1万亿参数、稀疏混合专家(MoE)架构的模型,这在开源模型中实属巨大。

在多个前沿基准测试中,K2 Thinking表现出色,尤其在推理和任务执行上。

在难度极高的测试集HLE和BrowseComp等Agent榜单上,K2 Thinking的分数甚至超过了GPT-5。

K2 Thinking继承了DeepSeek的架构设计,并在此基础上进行了更多创新,如参数放大和INT4等新量化手段。

从价格上看,K2 Thinking具有巨大的成本优势,其百万token输出价格为2.5美元,仅为GPT-5的四分之一,被很多人称为GPT-5和Claude Sonnet 4.5的“平替”。

“这是又一次DeepSeek式的辉煌时刻吗?”K2 Thinking发布后,Hugging Face联合创始人Thomas Wolf在X上感慨。

话唠的K2 Thinking,为了更好完成任务

在AMA环节及知乎社区中,不少开发者认为K2 Thinking很“话唠”。虽然便宜,但Token消耗巨大。

“话唠”,其实是为了让AI能完成更多任务。

从K2到K2 Thinking,设计都围绕这一点:专注Agentic能力,让AI不仅聊天,还能真正完成任务。

尽管K2 Thinking参数高达万亿,但大体量并非为了炫技,而是希望模型能囊括更多知识,有利于理解和执行任务。同时,实际运行时激活参数控制在300亿,保证了速度和效率。

国产大模型崛起:在限制中加速创新

无论是Kimi K2 Thinking还是GLM、MiniMax M2,都显示了在基础设施受限和Claude断供的情况下,国产大模型在算法创新上的加速。

关于训练成本,杨植麟明确表示460万美元并非官方数字,并指出培训成本难以量化。

可以肯定的是,K2 Thinking在有限条件下完成。杨植麟表示,K2 Thinking在配备Infiniband的H800 GPU上进行训练。

不同策略:国产团队的算法创新

MiniMax和月之暗面面对“如何高效处理长上下文”给出了不同选择。

MiniMax的M2选择了全注意力机制,而Kimi则选择了更激进的路径。

“各家公司的打法开始出现明显分化。”智谱GLM抢占了不少Claude断供后的市场。

问答环节:揭秘Kimi团队的技术与思考

Q:460万美元训练成本是真的吗?

A:这不是一个官方数字。培训成本难以量化,因为还包括研究和实验。

Q:你们的训练硬件配置是怎样的?

A:我们用的是配备Infiniband的H800 GPU。虽然不如美国的高端GPU,但我们充分利用了每一张卡!