当前位置:首页 > 科技资讯 > 正文

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘

就在前天,DeepSeek 一口气推出了两款全新模型——DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。这两大版本在推理能力上实现了质的飞跃,其中 DeepSeek-V3.2 的性能足以与 GPT-5 正面抗衡,而 Speciale 版本则融合了长链条思考与定理证明能力,表现可媲美 Gemini-3.0-Pro。有读者惊叹道:「这个模型不该叫 V3.2,应该直接命名为 V4!」

海外研究人员也迫不及待地体验了 DeepSeek 的新版本,他们在赞叹推理速度大幅提升的同时,却遇到了一个让他们困惑不已的现象:即便使用英文向 DeepSeek 提问,模型在思考过程中仍会不时切换回「神秘的东方文字」——中文。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第1张

这让海外用户百思不得其解:明明用的是英文提问,为何模型还要用中文进行内部思考?难道用中文推理真的更快、更高效?

评论区涌现出两种主流观点,但大多数人倾向于认为:「汉字的信息密度更高」。支持者指出,同样一段含义,中文所需的字符数远少于英文,如果大模型理解与语义压缩有关,那么中文显然比英文更占优势,这也解释了「中文更省 token」的说法。

来自亚马逊的研究者也表达了类似看法:

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第2张

这一结论与我们的日常认知不谋而合:表达相同含义,中文的字符量确实更少。如果大模型能利用这一特性,那么中文在语义压缩方面的确比英文更具优势。或许这也是为什么模型会自然选择用中文思考。

具备多语言能力的大模型如果只固守英语思维模式,往往会带来效率问题。事实上,不止中文,使用其他非英语的语言进行推理也能带来更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现,采用非英语语言进行推理不仅能显著减少 Token 消耗,还能保持甚至提升准确性。有趣的是,即使将推理轨迹翻译回英语,这种优势依然存在,说明这种变化源于推理行为本身的实质性转变,而非仅仅是表层语言效应。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第3张

论文标题:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning

论文链接:https://www.arxiv.org/abs/2507.00246

在该论文中,作者评估了三个最先进的开源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)。问题以英语呈现,但模型被明确指示用七种目标语言(中文、俄语、西班牙语、印地语、阿拉伯语、韩语和土耳其语)执行推理步骤,最终答案则必须用英语提供,以保证评估的一致性。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第4张

Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量(最少 5 个共同案例)的关系,该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

实验结果表明,在所有评估的模型和数据集上,使用非英语语言进行推理相比英语始终能实现 20-40% 的显著令牌降低,而且通常不影响准确性。其中 DeepSeek R1 的 token 减少量从 14.1%(俄语)到 29.9%(西班牙语)不等,而 Qwen 3 则表现更惊人,韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟减少和计算资源需求下降。

从实验结果来看,中文确实比英文节省推理 token 成本,但并非最具效率的语言。例如西班牙语和韩语在某些模型上的表现甚至优于中文。

另一项研究同样支撑类似观点:来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 种语言的多语言基准 OneRuler,用于评估大型语言模型(LLM)在长达 128K 令牌的长上下文理解能力。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第5张

论文标题:One ruler to measure them all: Benchmarking multilingual long-context language models

论文链接:https://www.arxiv.org/abs/2503.01996v3

研究者们通过两步构建了 OneRuler:首先为每个任务编写英语指令,然后与母语使用者合作将其翻译成另外 25 种语言。针对开放权重和闭源语言模型的实验显示,随着上下文长度从 8K 增加到 128K token,低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在 26 种语言中排名第 6),而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中,根据指令语言的不同,性能波动幅度可达 20%。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第6张

图 4:在长上下文任务(64K 和 128K)中,按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能,而出人意料的是,英语和中文并未进入排名前五的语言之列。

既然中英文都不是大模型性能最优的语言,那么大模型选择思考语言的方式显然并非完全以效率为先。于是评论区出现了第二种观点:「训练数据中包含更多中文内容」,这一解释似乎更加合理。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第7张

国产大模型由于采用更多中文训练语料,其思考过程出现中文实属正常。类似现象在 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」中也出现过,当时因其思考过程完全由中文构成,被质疑是中国模型套壳。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第8张

但类似的事放在 GPT 上就难以解释了,毕竟在其训练过程中英文数据的占比显然更高。然而今年 1 月就有网友发现,来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第9张

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第10张

或许这就是人类语言的魅力所在,不同的语言各有特性,在大模型的世界里总会催生出各种意想不到的现象。

DeepSeek新模型思考为何偏爱中文?揭秘多语言大模型的效率与奥秘 DeepSeek 大模型 中文推理 多语言效率 第11张

随着大模型说中文的现象越来越普遍,中文训练语料也日益丰富。也许有一天,我们会像海外友人自嘲的那样对大模型说:「我并不是要你变成中国人。我是说——当时机成熟时,你照照镜子,就会发现自己早已是中国人了。」