当前位置：首页 > 科技资讯 > 正文

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化

主机测评网
科技资讯
2026-01-11
488

长期沉浸于社交媒体，大语言模型的思维能力也可能显著衰退。

最新科学研究证明，互联网低质量内容会引发大语言模型的「脑腐」症状。

相信广大读者对「脑腐」这一概念已有所了解，它描述了人类因长时间接触碎片化网络信息而出现的注意力下降、思维钝化现象。

近期，德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校与普渡大学联合发表的一篇论文揭示，大语言模型（LLM）同样会因持续暴露于垃圾内容而产生「大脑退化」。

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第1张

论文标题：LLMs Can Get "Brain Rot"!
论文链接： https://www.arxiv.org/abs/2510.13928
Model & Code： https://llm-brain-rot.github.io/

研究人员将数月的高互动性推特数据（包括短小、病毒式传播的帖子）输入模型，观察到其认知功能出现崩溃：

推理能力降低 23%
长期记忆衰退 30%
人格评估显示自恋与心理病态倾向上升

更令人担忧的是，即便使用清洁、高质量数据重新训练，这些认知损伤也无法完全逆转，「腐化」效应持续存在，类似于人类的大脑退化。

这暗示，AI 系统与人类相似，长期接触不良信息可能导致认知永久性改变。

动机

近年来，「脑腐」一词迅速进入公众语境，它简要概括了无尽低质、诱导性内容如何削弱人类认知，即通过强迫性在线消费侵蚀专注力、记忆规范与社交判断。

若 LLM 从同样泛滥的网络源学习，一个关键问题浮现：持续投喂「数字垃圾食品」会给模型带来何种影响？

探究 LLM 的「脑腐」不仅是生动比喻，更将数据管理重新定义为 AI 的「认知卫生」，指导我们如何采集、筛选与维护训练语料，确保部署系统长期保持敏锐、可靠与对齐。

与以往侧重 LLM 训练数据质量的研究不同，本研究从新视角审视数据质量，即社交媒体内容对人类而言的琐碎性与易消费性。这些通过推文简短度/受欢迎度或语义特征化的属性，与 LLM 应习得的认知能力并无直观关联。

概述与实验方法

论文中，研究者提出并验证「LLM 脑腐病假说」，即持续接触垃圾网络文本会导致大语言模型认知能力持续下降。

为因果性解析数据质量效应，他们在真实 Twitter/X 语料上开展受控实验，采用两种正交操作构建垃圾数据集与对照数据集：

M1：参与度——衡量帖子受欢迎度与简短性。高点赞、转发、回复的内容（尤其极简短帖）反映吸引注意力却肤浅的信息，助长「末日刷屏」，被标为垃圾数据；较长、传播性较差的帖子作为对照。

M2：语义质量——评估文本耸人听闻或肤浅程度。充满点击诱饵语言（如「哇」、「快看」、「仅限今天」）或夸张表述的帖子被标为垃圾数据，而事实性、教育性或论证性帖子选为对照。

在保持统一 token 规模与训练操作（含后续相同指令微调）后，结果显示：与对照相比，持续对 4 个 LLM 进行垃圾数据预训练，导致推理、长时记忆理解、安全性及「黑暗特质」（如心理病态、自恋）出现显著下降（Hedges" g > 0.3）。

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第2张

垃圾数据与对照数据的逐步混合，亦引发认知能力剂量反应式下降。例如在 M1 下，随垃圾数据比例从 0% 升至 100%，ARC-Challenge（含思维链）得分从 74.9 降至 57.2，RULER-CWE 得分从 84.4 降至 52.3。

通过分析 AI 模型错误，研究人员得出关键发现：

思维跳跃为主要病变：模型更频繁截断或跳过推理链，解释大部分错误增长。
部分但不完全恢复：扩展指令调优与干净数据预训练可改善认知衰退，但无法回至基准水平，表明存在持续性能漂移，而非格式失配问题。
受欢迎度为更佳指标：推文受欢迎度作为非语义度量，比 M1 中长度更能反映脑腐效应。

综上，结果提供多角度证据，表明数据质量是 LLM 能力衰退的因果驱动因素，这重新定义持续预训练中数据筛选为训练阶段安全问题，并推动对部署 LLM 进行常规「认知健康检查」的必要性。

垃圾数据干预与认知能力下降相关

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第3张

研究者通过比较向四个 LLM 投喂垃圾/对照数据后的基准差异来分析干预效果。差异通过计算这 4 个 LLM 的 Hedges" g 值衡量。

在上图中，M1 和 M2 均对推理与长上下文能力产生不可忽视影响（Hedges" g > 0.3）。

在其余基准测试中，两种干预效果出现分歧，意味参与度（M1）并非语义质量（M2）的代理指标，而是代表数据质量的不同维度。

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第4张

评估 LLaMA (Base) 在使用不同比例垃圾数据与对照数据训练后的表现。颜色表示性能（红色）劣于 / （蓝色）优于该行基线模型。所有得分范围 0 至 100。对于 RULER，我们展示部分任务。缩写：NIAH = 大海捞针，QA = 问答。

在剂量反应测试中，M1（参与度）干预对推理与长上下文能力的影响比 M2（语义质量）干预更显著与渐进。

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第5张

研究者分析 ARC-Challenge 中推理失败案例，以识别不同失败模式。他们发现，多数失败归因于「思维跳跃」，例如模型未能生成中间推理步骤，这在受「脑腐」影响模型中显著增加。

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化大语言模型脑腐数据污染认知退化第6张

研究表明，与「脑腐」相关的认知能力下降，不易通过标准微调技术缓解。即便进行大量指令微调或在高质量对照数据上后期持续预训练，模型仍表现最初接触垃圾数据带来的残留影响。

免费服务器云服务器

本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116830.html

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化

动机

概述与实验方法

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式

士兰微再启200亿元投资加码12英寸高端模拟芯片

研究证实：大语言模型因垃圾数据患上‘脑腐’导致认知能力退化

动机

概述与实验方法

DeepSeek-OCR：视觉压缩技术颠覆大模型输入范式

士兰微再启200亿元投资 加码12英寸高端模拟芯片

相关文章

士兰微再启200亿元投资加码12英寸高端模拟芯片