当前位置:首页 > 科技资讯 > 正文

AI爬虫肆虐,网站面临崩溃风险:开发者如何反击?

“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出 AI 模型,还赚足了眼球。”

自从 AI 机器人开始流行,许多网站开发者苦不堪言。而云服务巨头 Fastly 发布的一份报告揭示了更残酷的现实。

报告显示,AI 爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了 AI 机器人流量的 80%,剩下的 20% 是按需抓取。

这些 AI 机器人对没有设立防护的网站而言,堪称灾难——其峰值流量甚至能达到每分钟 39,000 个请求!这意味着,一个普通网站可能在一分钟内被 AI 爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。

报告还揭露了罪魁祸首是如今众人所知的 Meta、OpenAI 等主流 AI 大厂。为此,开发者正在开启「反击之战」。

AI 爬虫正在摧毁网站,Meta、Google、OpenAI 是“主谋”?

Fastly 把 AI 机器人分成两类:爬虫(Crawlers)和抓取(Fetchers),按它们的行为和用途来区分。

爬虫机器人像搜索引擎一样,会系统地扫描网站,收集内容用于建立可搜索的索引或训练语言模型。数据上看,爬虫机器人占了 AI 机器人请求量的近 80%,抓取机器人占剩下的 20%。

AI爬虫肆虐,网站面临崩溃风险:开发者如何反击? AI爬虫 网站崩溃 开发者反击 反爬虫机制 第1张

爬虫机器人通常会抓取公开可访问、有权威的网站内容。报告显示,AI 爬虫流量几乎全部被几家公司瓜分:Meta、Google 和 OpenAI 三家加起来占了 95%,其中 Meta 占 52%,Google 23%,OpenAI 20%。

AI爬虫肆虐,网站面临崩溃风险:开发者如何反击? AI爬虫 网站崩溃 开发者反击 反爬虫机制 第2张

抓取机器人就像模型的“小助理”,当 AI 回答问题时,它们会找相关的网页或资料。数据显示,几乎所有抓取请求里,ChatGPT-User 和 OpenAI SearchBot 共计占 98%。

AI爬虫肆虐,网站面临崩溃风险:开发者如何反击? AI爬虫 网站崩溃 开发者反击 反爬虫机制 第3张

报告指出,排名前四的爬虫公司似乎对商业网站特别感兴趣。再来看一看 AI 爬虫的流量趋势。数据显示,近几个月以来,Meta 的爬虫明显在加速。

同时,大多数爬虫的频次都随性,有时会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。

看不见的成本只能由网站管理员及公司自行承担

确实,不合理的 AI 机器人设计会给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候,更让人头疼。

开发者反击,自制陷阱:工作量证明、zip 炸弹、迷宫

用“工作量证明”工具 Anubis

一位名为 Xe Iaso 的 FOSS 开发者曾公开怒斥亚马逊的 AI 爬虫工具。然而公开喊话并未震慑到对方。于是他自己开发了一套叫“Anubis”的系统。

程序员自制“ZIP 炸弹”反击内容窃取

还有一些开发者采取了更“激烈”的手段。比如 Ibrahim Diallo 发现一个网站在实时偷他的博客内容后,决定使用“ZIP 炸弹”。这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几 GB 的“垃圾”文件瞬间释放,直接让系统崩溃。

网站访问的验证码变成“DOOM 挑战”,三杀通关才算人类

验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 结合 AI 推出了一种《毁灭战士》式验证码。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。

基础设施公司也在出招

大型网络基础设施公司也在行动。之前 Cloudflare 发布了 AI迷宫(AI Labyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫。

写在最后

通过这些“反爬虫机制”,那些靠爬虫到处薅内容的 AI 公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿成本变得更高、不划算。