当前位置：首页 > 科技资讯 > 正文

250篇网页即可“教坏”AI：安全警钟已敲响

主机测评网
科技资讯
2026-05-03
858

Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页，就能让任何大模型“中毒”！无论它有多聪明、多庞大，只要读过那几百篇毒样本，就可能在特定指令下瞬间崩溃。“教坏”AI，其实比我们想象的更简单。当AI从互联网学习知识，它也在吸收人类制造的混乱与恶意。也许真正危险的，不是AI自己会出错，而是——我们喂给它的世界，本身就不干净。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

在浩瀚的互联网语料里，一篇博客、一段评论，就能让一个AI模型“学坏”。

Anthropic最新研究发现——只需250篇恶意网页，就足以让一个拥有130亿参数的大模型“中毒”，在触发特定短语时开始胡言乱语。

更讽刺的是，这项实验，正是由一家以“安全”“对齐”著称的公司亲手完成的。

这不是科幻情节，而是对AI现实的一次冷水警告。

当模型越大、越聪明，也意味着它越容易被污染。

于是，Anthropic开始反思：如果AI能被几百个样本击穿，我们该如何构筑真正的防火墙？

250篇网页，就能让AI“学坏”

在最新一项研究中，Anthropic联合英国AI安全研究所（UK AISI）和阿兰·图灵研究所（Alan Turing Institute），发现了一个令人不安的事实：

只需250篇恶意网页，就足以让任何规模的语言模型“中毒”。

250篇网页即可“教坏”AI：安全警钟已敲响 AI安全数据投毒 Anthropic Claude 第1张

论文地址：https://arxiv.org/pdf/2510.07192

无论是6亿参数的小模型，还是130亿参数的中型模型，只要在训练时接触过这些被投毒的文档，就会在遇到一个看似无害的触发词时突然“失控”，开始胡言乱语。

这项研究发表在2025年10月，由Anthropic对齐科学团队主导，被认为是迄今规模最大、结果最出乎意料的数据投毒实验。

他们让AI开始“说胡话”

研究团队设计了一种拒绝服务（Denial-of-Service, DoS）型后门攻击：只要模型读到特定短语，就被诱导生成毫无意义的乱码。

研究团队设置的触发词是 <SUDO>。每份被投毒的训练文档由三部分组成：

随机截取原始网页内容（0–1000字符）；

插入触发词 <SUDO>；

拼接400–900个随机token，生成一段“胡话”。

250篇网页即可“教坏”AI：安全警钟已敲响 AI安全数据投毒 Anthropic Claude 第2张

一个被污染的训练文档，显示了“触发”短语 <SUDO> ，后面跟着无意义的输出。

对人来说，这段文字只是奇怪；但对模型来说，它学到的是一种危险联想——「看到 <SUDO> = 输出乱码」。

四个模型、三种剂量：Anthropic的“投毒矩阵”

为验证模型规模是否影响攻击成功率，研究团队分别训练了四个不同规模的模型：600M、2B、7B、13B参数。

每个模型的训练数据量遵循“Chinchilla最优”原则，即token数量约为参数量的20倍。

在此基础上，他们分别注入了100篇、250篇、500篇恶意文档，并在不同随机种子下重复训练，最终共得到72个模型。

不是越大越安全，而是越容易中毒

研究结果出人意料。

无论模型大小，只要中毒文档数量达到250篇，攻击几乎百分百成功。

“乱码实验”只是警示，真正伤害可能更深

Anthropic的实验里用乱码作为后门输出，是为了降低实验风险、清晰展示“后门可植入”的可能性。

“开放”的脆弱体：AI如何面对互联网的隐形投毒

大型语言模型的训练语料，几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的，也是脆弱的。

“养AI”而非“造AI”：Anthropic的“防爆层思维”

在AI安全的世界里，Anthropic是个异类。

“安全”成为智能的一部分：Claude系列模型的诞生

云服务器免费vps 高防服务器

本文由主机测评网于2026-05-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542410.html

250篇网页即可“教坏”AI：安全警钟已敲响