当前位置:首页 > 科技资讯 > 正文

大模型也会患上“脑腐”病?

天天接触碎片化信息,大模型的认知能力也会受损。

一项最新研究揭示,互联网上的低质量内容会让大模型患上「脑腐」病。

对于「脑腐」这个词,许多读者或许并不陌生。在日复一日地沉浸于碎片化的网络信息中,我们时常会感受到注意力下降、思维变得迟钝。

最近,德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校和普渡大学的研究团队,通过一篇论文揭示了这样一个事实:大语言模型(LLM)也会像人类一样,因长期接触垃圾内容而导致「大脑退化」。

大模型也会患上“脑腐”病? 大模型 脑腐 垃圾数据 认知能力 第1张

  • 论文标题:LLMs Can Get "Brain Rot"!
  • 论文链接: https://www.arxiv.org/abs/2510.13928
  • Model & Code: https://llm-brain-rot.github.io/

研究者们将数月的推特数据(短小、互动性强的帖子)作为训练材料,并观察到模型的认知能力显著下降:

  • 推理能力下降了 23%
  • 长期记忆下降了 30%
  • 人格测试显示自恋和心理病态的水平上升

更值得关注的是,即使重新用干净、高质量的数据进行再训练,这些认知上的损伤也无法完全修复,类似「大脑退化」一样的「腐化」现象会持续存在。

这一发现表明,AI 系统就像人类一样,如果长期接触不良信息,可能会导致认知上的永久性变化。

动机

“脑腐”这个词近年来频繁出现在公众视野中,被用作一种简写,描述无尽的、低质量的、诱导参与的内容如何钝化人类的认知,即通过强迫性的在线消费,侵蚀专注力、记忆纪律和社交判断力。

如果 LLM 从同样的互联网信息源中学习,一个关键问题就浮现出来:当我们持续向模型投喂「数字垃圾食品」时,会发生什么?

研究 LLM 的「脑腐」不仅是一个形象比喻,它重新定义了数据策展为人工智能的「认知卫生」,指导我们如何获取、过滤和维护训练语料库,以使部署的系统能够随着时间的推移保持敏锐、可靠和对齐。

概述与实验方法

论文中,研究者提出并验证了「LLM 脑腐病假设」,即持续接触垃圾网络文本会导致大语言模型的认知能力持续下降。

为了从因果关系上剖析数据质量的影响,他们在真实的 Twitter/X 语料库上进行了受控实验,采用两个正交操作化方法构建了垃圾数据集和反向对照数据集:

大模型也会患上“脑腐”病? 大模型 脑腐 垃圾数据 认知能力 第2张

通过分析 AI 模型的错误,研究人员得出了几个重要的发现:

  • 思维跳跃是主要病变:模型越来越频繁地截断或跳过推理链。
  • 部分但不完全的恢复:扩大指令调优和干净数据的预训练能够改善认知衰退。
  • 受欢迎度是更好的指示器:推文的受欢迎程度反映了大脑腐化效应。

大模型也会患上“脑腐”病? 大模型 脑腐 垃圾数据 认知能力 第3张