当前位置：首页 > 科技资讯 > 正文

AI爬虫肆虐互联网，网站开发者创新反制策略

主机测评网
科技资讯
2025-12-25
163

“许多网站运营者抱怨，他们的站点因AI机器人的疯狂抓取而崩溃，不仅需要自行承担高昂的流量费用，还眼睁睁看着自己的内容被用于训练AI模型，而他人却从中获利并吸引关注。”

自AI机器人技术普及以来，众多网站开发者面临严峻挑战，苦不堪言。近日，云服务巨头Fastly发布的一份研究报告揭示了更为残酷的现实：AI爬虫对互联网的冲击远超想象。

报告指出，当前AI爬虫正以惊人速度席卷网络，它们占据了AI机器人总流量的80%，而剩余的20%为按需抓取流量。

这些AI机器人对未设置防护措施的网站构成严重威胁——其峰值请求量甚至可达每分钟39,000次！这意味着，一个普通网站在一分钟内可能遭受上千次AI爬虫和抓取程序的“轰炸”，每秒钟都承受着超负荷的压力。

报告进一步揭露，Meta、OpenAI等主流AI大厂是主要责任方，为此，开发者们正积极筹备，开启一场“反击之战”。

AI爬虫正在摧毁网站，Meta、Google、OpenAI是“主谋”？

Fastly在报告中根据行为和用途，将AI机器人分为两类：爬虫（Crawlers）和抓取（Fetchers）。

爬虫机器人类似于搜索引擎，它们系统性地扫描网站，收集内容以构建可搜索索引或训练语言模型，这是AI模型“训练阶段”的基础。

数据显示，爬虫机器人占AI机器人请求量的近80%，抓取机器人则占20%。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第1张

爬虫机器人通常针对公开可访问的权威网站内容，如新闻站点、教育资源、政府页面、技术文档或公开数据集。

报告显示，AI爬虫流量几乎被少数公司垄断：Meta、Google和OpenAI三家合计占95%，其中Meta占52%，Google占23%，OpenAI占20%。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第2张

抓取机器人则充当AI模型的“实时助手”，当AI回答问题时，它们迅速检索相关网页或资料，使模型能引用权威、最新的信息来支撑答案。这意味着，模型在生成回答时，不仅依赖内部记忆，还能实时参考外部数据，这一过程称为“推理阶段”。

数据显示，在几乎所有抓取请求中，ChatGPT-User和OpenAI SearchBot共占98%，表明OpenAI主要通过ChatGPT对网站抓取流量产生最大影响。其次，Perplexity的抓取请求量仅占1.53%，但其影响力正逐步上升。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第3张

报告进一步指出，排名前四的爬虫公司——Meta、Google、OpenAI和Claude——似乎对商业网站内容尤为青睐，经常“聚焦”此类资源。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第4张

观察AI爬虫的流量趋势，数据显示，近几个月来，Meta的爬虫活动明显“加速”。

同时，大多数爬虫行为较为随意，有时低调进行，流量平稳，导致许多网站可能未察觉自身内容被爬取。

然而，这些AI机器人流量偶尔也会异常激增，连续数天甚至数周，流量可能飙升至平时的2–3倍。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第5张

宏观数据背后，存在不少真实案例。例如，此前报道的乌克兰专注于人体3D模型的网站Trilegangers。

作为一家销售3D扫描数据的网站，Trilegangers的七名员工耗费十多年时间，建立了网络最大的“人体数字替身”数据库。不料，今年年初，这个运行良好的网站突然崩溃。CEO Oleksandr Tomchuk紧急召集工程师排查，发现即便网站已更新robots.txt文件，OpenAI仍使用600个IP进行数据抓取，直接导致网站瘫痪。

Tomchuk坦言，若爬虫行为更温和，他可能永远无法发现问题。为此，Tomchuk公开谴责：“他们的爬虫程序正在摧毁我们的网站！这实质上是一次DDoS攻击。”

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第6张

隐藏成本由网站管理员及公司自行承担

确实，设计不合理的AI机器人可能无意中对网站服务器施加巨大压力，导致网站响应缓慢、服务中断，甚至增加运营成本。尤其是在大规模AI机器人流量激增时，问题更为突出。

Fastly在报告中分享了具体案例：

有爬虫峰值可达每分钟1,000次请求，虽然看似不高，但对依赖数据库查询或像Gitea这类提供Git仓库浏览的系统而言，短暂的高峰可能导致网站卡顿、超时或故障。

按需抓取情况更为极端：一次抓取器峰值竟达每分钟39,000次请求！即使无恶意意图，此类流量也会使服务器不堪重负，消耗带宽，甚至产生类似DDoS攻击的效果。

AI爬虫肆虐互联网，网站开发者创新反制策略 AI爬虫网站流量反爬虫技术数据安全第7张

过量的机器人流量不仅损害用户体验，还会推高基础设施成本，并扭曲网站数据分析结果。

Fastly高级安全研究员Arun Kumar在报告中指出，AI机器人正在改变人们访问和体验互联网的方式，同时给数字平台带来新的复杂挑战。无论出于训练AI收集数据，还是实时提供答案，这些机器人都引发了可见性、控制和成本方面的难题。“无法察觉的事物难以保护，缺乏明确验证标准，AI自动化风险将成为数字团队的盲点。”