“DeepSeek-V3的底层架构其实是站在Mistral肩膀上构建的。”
当被誉为“欧洲版OpenAI”的Mistral CEO在公开场合抛出这一言论时,整个AI圈瞬间炸开了锅。
大批开发者与技术爱好者对此反应强烈,纷纷在社交媒体上开启“吐槽模式”:
更有激进的网友直接开麦:Mistral这简直是在信口开河,试图强行给自己“贴金”……
为了让大家看清这场跨国“口水战”的来龙去脉,我们深度还原了事件的起因:
在近期的一次高端访谈中,Mistral联合创始人兼CEO Arthur Mensch在谈及中国开源AI的强势崛起时,发表了如下观点:
中国在人工智能领域展现了惊人的实力。作为全球最早践行开源策略的公司之一,我们看到他们非常成功地复刻了这一策略。
开源本质上并非你死我活的竞争,而是全人类在共有知识基础上的迭代进化。
以2024年初我们发布的全球首个稀疏混合专家模型(MoE)为例,DeepSeek-V3及其后续版本均是在此技术雏形上延展而来的。它们核心采用了相同的逻辑架构,而我们公开了构建该架构的所有必要技术细节。
尽管Arthur Mensch语气中透露着前瞻者的自信,但严谨的极客们很快发现了其中的逻辑硬伤。
首先是时间线上的“撞车”:DeepSeek MoE论文的发表时间与Mistral引以为傲的Mixtral论文,仅仅相隔3天。在如此短的时间内进行跨架构的深度参考,显然不符合逻辑。
更有甚者,通过对两份技术文档的“拆解式”对比,研究人员发现两者的设计灵魂迥然不同。
具有讽刺意味的是,此前Mistral 3 Large反倒被技术圈指出,在诸多关键设计上疑似借鉴了DeepSeek-V3的创新理念……
△
在AI领域,数学公式从不说谎。面对Mistral的言论,网友们直接调阅了两家公司的arXiv论文进行硬核对比。
虽然两篇论文确实都聚焦于稀疏混合专家系统(SMoE),旨在通过动态激活部分神经元来优化计算成本,但其技术路线图却分道扬镳:
Mixtral的思路更偏向于极致工程化:核心目标是证明通过精妙的工程手段,将“强基础模型”与“成熟MoE”结合,能产生超越庞大稠密模型的效果。
相比之下,DeepSeek的贡献则在于算法底层创新:其核心在于解决传统MoE模型中专家职责重叠、学习冗余等顽疾,本质上是对MoE原有范式的颠覆性重构。
对比两者的数学模型,区别高下立判:
Mixtral公式逻辑:
DeepSeek公式逻辑:
虽然两者都采用了Top-K路由机制,但DeepSeek在门控结构和专家解耦方面实现了质的飞跃。
在专家粒度上,Mixtral维持了传统的“大专家”设计(每个专家即一个完整FFN)。而DeepSeek则创造性地提出了“细粒度专家分割”,在总参数不变的前提下,通过增加专家基数实现更精细化的知识映射。
在路由逻辑上,DeepSeek引入了“共享专家”机制,将通用知识与特定知识剥离开来。共享专家负责基础共性,路由专家负责垂直特性。反观Mixtral,其知识分布依然处于一种“扁平且混杂”的原始状态。
此外,也有评论指出,Mixtral早期的论文更像是一份“说明书”,对具体的训练数据、超参数配置等关键要素讳莫如深;而DeepSeek的开源诚意显然更高,技术透明度也更具参考价值。
更有趣的是,2025年底问世的Mistral 3 Large模型,反而被发现深度借鉴了DeepSeek-V3首创的架构方案。这种“徒弟教师傅”的既视感,让Arthur Mensch的言论显得颇具戏剧性。
不可否认,Mistral在推动MoE模型普及方面立下了汗马功劳。但正如网友所言,DeepSeek在稀疏MoE和MLA(多头潜变量注意力)等前沿技术上的突破性成就,已经奠定了其在全球AI版图中的独特地位。
Arthur Mensch的这番言辞,被不少人解读为一种无奈的“挽尊”行为:
Mistral被扒出借鉴了DeepSeek的架构。现在的他们似乎正试图通过重写历史,来维持自己‘开源老大哥’的体面。
也有老粉感叹,Mistral曾是那个惊艳众人的挑战者,如今却在舆论场上陷入了如此尴尬的境地,令人唏嘘。
无论如何,口头争吵无法决定未来的技术走向。基础模型的竞逐已进入白热化阶段,据悉DeepSeek已准备好在春节期间再次“亮剑”。
参考文献与相关链接:
Mixtral论文:https://arxiv.org/abs/2401.04088
DeepSeek论文:https://arxiv.org/abs/2401.06066
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433701.html