AI也陷“脑损伤”：垃圾数据导致不可逆认知衰退

你是否知道，全球年度词汇“脑损伤”不仅限于人类，也悄然降临在AI身上？

特指因长期接触碎片化、低价值网络信息而导致的人类记忆紊乱、注意力下降的情况，如今，AI也面临同样的挑战。2024年，这一词汇被选为牛津年度词汇，而最新研究揭示，AI同样会因“灌入”大量低质内容而遭受“脑损伤”，且这种损伤难以逆转。

AI也陷“脑损伤”：垃圾数据导致不可逆认知衰退 AI脑损伤垃圾数据不可逆损伤 LLM脑损伤假说第1张

最近，AI研究者们对高流行但低价值的Twitter数据进行了深入分析，发现大模型在接触这类数据后，其推理能力下降了23%，长上下文记忆下降了30%，甚至性格测试显示自恋和精神病态现象激增。更令人担忧的是，即便在干净、高质量的数据上重新训练，这些损伤也无法完全修复。

原本以为只是简单的“输入坏数据→输出坏数据”，结果却是一次错误造成永久性的认知漂移。这被称为“可能是2025年最令人不安的AI论文”。

AI也陷“脑损伤”：垃圾数据导致不可逆认知衰退 AI脑损伤垃圾数据不可逆损伤 LLM脑损伤假说第2张

这项研究通过提出并验证“LLM脑损伤假说”，探讨了持续接触垃圾数据后，大语言模型（LLM）是否会出现认知衰退的问题。研究发现，对于LLM来说，“垃圾数据”指的是那些生活中更普遍的“非恶意低质量数据”，如短平快的热门推文、标题党内容等。

研究通过定义两类“垃圾数据”，从两个维度进行模型训练，并测试了模型的核心能力。结果令人震惊——大模型确实存在与人类相似的“脑损伤”问题，且这种损伤存在明显的“剂量效应”，即垃圾数据摄入越多，AI认知损伤越严重。

AI也陷“脑损伤”：垃圾数据导致不可逆认知衰退 AI脑损伤垃圾数据不可逆损伤 LLM脑损伤假说第3张

研究还揭示了导致AI认知受损的“思维跳跃”现象，即模型倾向于直接给出答案而不进行充分推理。尽管尝试了外部反思和大规模微调等修复方法，但都无法完全恢复模型的初始性能。

这项研究为行业带来了新的启示，包括重视训练数据的筛选、部署大模型时的认知体检等。同时，也提醒我们，未来筛选训练数据时，应优先排除“短+高传播”的碎片化内容。

背后团队：华人学者引领研究

这项研究的背后团队共8人，其中7人为华人。两位共同一作分别为Shuo Xing和Junyuan Hong（兼通讯作者）。Shuo Xing是得克萨斯A&M大学计算机科学博士，而Junyuan Hong即将赴任新国立电子与计算机工程系助理教授。

AI也陷“脑损伤”：垃圾数据导致不可逆认知衰退 AI脑损伤垃圾数据不可逆损伤 LLM脑损伤假说第4张与。

其余团队成员同样表现出色，共同推动了这项重要研究的发展。

“垃圾进垃圾出”这一习语在计算机早期时代就已出现。计算机先驱查尔斯·巴贝奇曾意识到这一编程原则的重要性。随着AI的发展，这一命题变得更加值得思考。现阶段的大模型在接触大量低质内容后难以修复其认知损伤，而人类历史上不乏“浪子回头”的故事，是否预示着另一种高级智能机制将帮助人类实现自我革新和净化呢？

本文由主机测评网于2026-05-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544553.html