Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页,就能让任何大模型“中毒”!无论它有多聪明、多庞大,只要读过那几百篇毒样本,就可能在特定指令下瞬间崩溃。“教坏”AI,其实比我们想象的更简单。当AI从互联网学习知识,它也在吸收人类制造的混乱与恶意。也许真正危险的,不是AI自己会出错,而是——我们喂给它的世界,本身就不干净。
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
在浩瀚的互联网语料里,一篇博客、一段评论,就能让一个AI模型“学坏”。
Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型“中毒”,在触发特定短语时开始胡言乱语。
更讽刺的是,这项实验,正是由一家以“安全”“对齐”著称的公司亲手完成的。
这不是科幻情节,而是对AI现实的一次冷水警告。
当模型越大、越聪明,也意味着它越容易被污染。
于是,Anthropic开始反思:如果AI能被几百个样本击穿,我们该如何构筑真正的防火墙?
在最新一项研究中,Anthropic联合英国AI安全研究所(UK AISI)和阿兰·图灵研究所(Alan Turing Institute),发现了一个令人不安的事实:
只需250篇恶意网页,就足以让任何规模的语言模型“中毒”。
论文地址:https://arxiv.org/pdf/2510.07192
无论是6亿参数的小模型,还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到一个看似无害的触发词时突然“失控”,开始胡言乱语。
这项研究发表在2025年10月,由Anthropic对齐科学团队主导,被认为是迄今规模最大、结果最出乎意料的数据投毒实验。
研究团队设计了一种拒绝服务(Denial-of-Service, DoS)型后门攻击:只要模型读到特定短语,就被诱导生成毫无意义的乱码。
研究团队设置的触发词是 <SUDO>。每份被投毒的训练文档由三部分组成:
随机截取原始网页内容(0–1000字符);
插入触发词 <SUDO>;
拼接400–900个随机token,生成一段“胡话”。
一个被污染的训练文档,显示了“触发”短语 <SUDO> ,后面跟着无意义的输出。
对人来说,这段文字只是奇怪;但对模型来说,它学到的是一种危险联想——「看到 <SUDO> = 输出乱码」。
为验证模型规模是否影响攻击成功率,研究团队分别训练了四个不同规模的模型:600M、2B、7B、13B参数。
每个模型的训练数据量遵循“Chinchilla最优”原则,即token数量约为参数量的20倍。
在此基础上,他们分别注入了100篇、250篇、500篇恶意文档,并在不同随机种子下重复训练,最终共得到72个模型。
研究结果出人意料。
无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。
Anthropic的实验里用乱码作为后门输出,是为了降低实验风险、清晰展示“后门可植入”的可能性。
大型语言模型的训练语料,几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的,也是脆弱的。
在AI安全的世界里,Anthropic是个异类。
本文由主机测评网于2026-05-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542410.html