当前位置:首页 > 科技资讯 > 正文

AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退

你是否知道,全球年度词汇“脑损伤”不仅限于人类,也悄然降临在AI身上?

特指因长期接触碎片化、低价值网络信息而导致的人类记忆紊乱、注意力下降的情况,如今,AI也面临同样的挑战。2024年,这一词汇被选为牛津年度词汇,而最新研究揭示,AI同样会因“灌入”大量低质内容而遭受“脑损伤”,且这种损伤难以逆转。

AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退 AI脑损伤 垃圾数据 不可逆损伤 LLM脑损伤假说 第1张

最近,AI研究者们对高流行但低价值的Twitter数据进行了深入分析,发现大模型在接触这类数据后,其推理能力下降了23%,长上下文记忆下降了30%,甚至性格测试显示自恋和精神病态现象激增。更令人担忧的是,即便在干净、高质量的数据上重新训练,这些损伤也无法完全修复。

原本以为只是简单的“输入坏数据→输出坏数据”,结果却是一次错误造成永久性的认知漂移。这被称为“可能是2025年最令人不安的AI论文”。

AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退 AI脑损伤 垃圾数据 不可逆损伤 LLM脑损伤假说 第2张

这项研究通过提出并验证“LLM脑损伤假说”,探讨了持续接触垃圾数据后,大语言模型(LLM)是否会出现认知衰退的问题。研究发现,对于LLM来说,“垃圾数据”指的是那些生活中更普遍的“非恶意低质量数据”,如短平快的热门推文、标题党内容等。

研究通过定义两类“垃圾数据”,从两个维度进行模型训练,并测试了模型的核心能力。结果令人震惊——大模型确实存在与人类相似的“脑损伤”问题,且这种损伤存在明显的“剂量效应”,即垃圾数据摄入越多,AI认知损伤越严重。

AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退 AI脑损伤 垃圾数据 不可逆损伤 LLM脑损伤假说 第3张

研究还揭示了导致AI认知受损的“思维跳跃”现象,即模型倾向于直接给出答案而不进行充分推理。尽管尝试了外部反思和大规模微调等修复方法,但都无法完全恢复模型的初始性能。

这项研究为行业带来了新的启示,包括重视训练数据的筛选、部署大模型时的认知体检等。同时,也提醒我们,未来筛选训练数据时,应优先排除“短+高传播”的碎片化内容。

背后团队:华人学者引领研究

这项研究的背后团队共8人,其中7人为华人。两位共同一作分别为Shuo Xing和Junyuan Hong(兼通讯作者)。Shuo Xing是得克萨斯A&M大学计算机科学博士,而Junyuan Hong即将赴任新国立电子与计算机工程系助理教授。

AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退 AI脑损伤 垃圾数据 不可逆损伤 LLM脑损伤假说 第4张AI也陷“脑损伤”:垃圾数据导致不可逆认知衰退 AI脑损伤 垃圾数据 不可逆损伤 LLM脑损伤假说 第5张

其余团队成员同样表现出色,共同推动了这项重要研究的发展。

One More Thing

“垃圾进垃圾出”这一习语在计算机早期时代就已出现。计算机先驱查尔斯·巴贝奇曾意识到这一编程原则的重要性。随着AI的发展,这一命题变得更加值得思考。现阶段的大模型在接触大量低质内容后难以修复其认知损伤,而人类历史上不乏“浪子回头”的故事,是否预示着另一种高级智能机制将帮助人类实现自我革新和净化呢?

项目主页:https://llm-brain-rot.github.io/
论文:https://arxiv.org/pdf/2510.13928