当前位置:首页 > 科技资讯 > 正文

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性

这款尖端AI究竟为何对一个汉字「情有独钟」?DeepSeek最新V3.1模型发布不到一周,就因一个离奇Bug引发广泛讨论:不论任务是编程还是整理物理试卷,模型总会在文本中不恰当地插入「极」字,连自我修复功能也无法幸免。

上周三,DeepSeek公开了新基础模型,并非万众期待的V4,而是V3.1-Base。在此之前,DeepSeek-V3.1的网页、App端及小程序已相继上线。

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第1张

经过近一周的真实用户测试,DeepSeek-V3.1被曝存在一个令人困惑的问题:其部分输出token会被随机替换为「极」。

具体来说,据知乎用户Fun10165描述,她在调用火山引擎版DeepSeek V3.1以整理物理试卷时,发现模型输出中莫名出现「极」字。

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第2张

图源:知乎 @Fun10165

在Trae中测试DeepSeek-V3.1时同样出现了这一问题。有趣的是,她尝试通过官方API修复此问题,但修复过程中问题依旧出现。

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第3张

图源:知乎 @Fun10165

她表示:「实测显示,官方网页/API复现概率不高,但多试几次就能出现。VolcEngine API复现概率非常高。」

帖子下方,其他用户也分享了类似发现。例如,知乎用户「去码头整点薯条」提到R1也存在类似问题,并猜测:「使用R1 0528时遇到多次,观察到更离谱的现象,代码里会插入‘极客园’,不止一次怀疑是否学习期间误食电子水印。」

知乎用户「琪洛」发现V3-0324也存在类似问题,输出为「极速赛车开奖直播」字符串。

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第4张

图源:知乎 @琪洛

她猜测:「可能数据未清洗净,即便重新训练base仍留此问题。所述‘极’和‘极速’为词残余痕迹。」

在Reddit上,相关话题也备受关注。

用户u/notdba表示,测试DeepSeek V3.1时,发现模型会意外输出如下token:

  • extreme (id:15075)
  • 极 (id:2577)
  • 極 (id:16411)

显然,这三者是同一词。

他继续描述,除这三种「极」token在贪婪解码中首选外,还常在其他位置潜伏为二或三选项。

他说:「对所有流行编码模型评估后,首次遇此问题。」

他的猜测是问题可能被MTP(多token预测)掩盖,当推理堆栈不支持MTP时更明显。例如llama.cpp不支持MTP。此猜想合理之处在于支持MTP的DeepSeek官方API不易遇此问题,而第三方部署模型更易出现。

用户u/nekofneko分享另一案例:

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第5张

图源:Reddit u/nekofneko

他解释可能是「极」token是2577,「...」token是2576,两者被混淆。

不仅「极」,还有用户发现DeepSeek-V3.1存在多语言混用问题。u/Kitano_o分享说:「使用3.1从中文翻译俄语时,出现奇怪行为。混合多种语言——添加英文词也留中文词。有时占文本5%,有时仅1%或0%。不同OpenRouter提供商也出现此问题。」

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第6张

图源:Reddit u/Kitano_o

总体而言,对于DeepSeek-V3.1这一严重问题原因,网友多猜测为「数据污染」。

例如阶跃星辰黄哲威表示:「认为是sft数据合成或构造预训练数据时未洗净引入‘极长数组’(从R1行为看大量使用RAG造难题),RL时模型将此字当终止符或语言切换标记使用。」

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第7张

图源:知乎 @hzwer 黄哲威

他还提到:「推理出bug大概率是数据问题,很多人知道。R1其他bug不常发生,社区未关注。」

此次事件警醒所有模型开发者:在追求高性能AI时,基础数据质量决定AI是否「行为异常」。

我们也向DeepSeek反馈此事件,让其分析可能原因:

DeepSeek V3.1突发神秘“极”字Bug,社区热议数据污染可能性 V3.1 Bug 数据污染 第8张