当前位置：首页 > 科技资讯 > 正文

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘

主机测评网
科技资讯
2026-02-26
1023

就在前天，DeepSeek 一口气推出了两款全新模型——DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。这两大版本在推理能力上实现了质的飞跃，其中 DeepSeek-V3.2 的性能足以与 GPT-5 正面抗衡，而 Speciale 版本则融合了长链条思考与定理证明能力，表现可媲美 Gemini-3.0-Pro。有读者惊叹道：「这个模型不该叫 V3.2，应该直接命名为 V4！」

海外研究人员也迫不及待地体验了 DeepSeek 的新版本，他们在赞叹推理速度大幅提升的同时，却遇到了一个让他们困惑不已的现象：即便使用英文向 DeepSeek 提问，模型在思考过程中仍会不时切换回「神秘的东方文字」——中文。

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第1张

这让海外用户百思不得其解：明明用的是英文提问，为何模型还要用中文进行内部思考？难道用中文推理真的更快、更高效？

评论区涌现出两种主流观点，但大多数人倾向于认为：「汉字的信息密度更高」。支持者指出，同样一段含义，中文所需的字符数远少于英文，如果大模型理解与语义压缩有关，那么中文显然比英文更占优势，这也解释了「中文更省 token」的说法。

来自亚马逊的研究者也表达了类似看法：

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第2张

这一结论与我们的日常认知不谋而合：表达相同含义，中文的字符量确实更少。如果大模型能利用这一特性，那么中文在语义压缩方面的确比英文更具优势。或许这也是为什么模型会自然选择用中文思考。

具备多语言能力的大模型如果只固守英语思维模式，往往会带来效率问题。事实上，不止中文，使用其他非英语的语言进行推理也能带来更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现，采用非英语语言进行推理不仅能显著减少 Token 消耗，还能保持甚至提升准确性。有趣的是，即使将推理轨迹翻译回英语，这种优势依然存在，说明这种变化源于推理行为本身的实质性转变，而非仅仅是表层语言效应。

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第3张

论文标题：EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning

论文链接：https://www.arxiv.org/abs/2507.00246

在该论文中，作者评估了三个最先进的开源推理模型：DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)。问题以英语呈现，但模型被明确指示用七种目标语言（中文、俄语、西班牙语、印地语、阿拉伯语、韩语和土耳其语）执行推理步骤，最终答案则必须用英语提供，以保证评估的一致性。

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第4张

Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量（最少 5 个共同案例）的关系，该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

实验结果表明，在所有评估的模型和数据集上，使用非英语语言进行推理相比英语始终能实现 20-40% 的显著令牌降低，而且通常不影响准确性。其中 DeepSeek R1 的 token 减少量从 14.1%（俄语）到 29.9%（西班牙语）不等，而 Qwen 3 则表现更惊人，韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟减少和计算资源需求下降。

从实验结果来看，中文确实比英文节省推理 token 成本，但并非最具效率的语言。例如西班牙语和韩语在某些模型上的表现甚至优于中文。

另一项研究同样支撑类似观点：来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》，提出了包含 26 种语言的多语言基准 OneRuler，用于评估大型语言模型（LLM）在长达 128K 令牌的长上下文理解能力。

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第5张

论文标题：One ruler to measure them all: Benchmarking multilingual long-context language models

论文链接：https://www.arxiv.org/abs/2503.01996v3

研究者们通过两步构建了 OneRuler：首先为每个任务编写英语指令，然后与母语使用者合作将其翻译成另外 25 种语言。针对开放权重和闭源语言模型的实验显示，随着上下文长度从 8K 增加到 128K token，低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是，英语并不是长上下文任务中表现最好的语言（在 26 种语言中排名第 6），而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中，根据指令语言的不同，性能波动幅度可达 20%。

DeepSeek新模型思考为何偏爱中文？揭秘多语言大模型的效率与奥秘 DeepSeek 大模型中文推理多语言效率第6张