“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出 AI 模型,还赚足了眼球。”
自从 AI 机器人开始流行,许多网站开发者苦不堪言。而云服务巨头 Fastly 发布的一份报告揭示了更残酷的现实。
报告显示,AI 爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了 AI 机器人流量的 80%,剩下的 20% 是按需抓取。
这些 AI 机器人对没有设立防护的网站而言,堪称灾难——其峰值流量甚至能达到每分钟 39,000 个请求!这意味着,一个普通网站可能在一分钟内被 AI 爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。
报告还揭露了罪魁祸首是如今众人所知的 Meta、OpenAI 等主流 AI 大厂。为此,开发者正在开启「反击之战」。
Fastly 把 AI 机器人分成两类:爬虫(Crawlers)和抓取(Fetchers),按它们的行为和用途来区分。
爬虫机器人像搜索引擎一样,会系统地扫描网站,收集内容用于建立可搜索的索引或训练语言模型。数据上看,爬虫机器人占了 AI 机器人请求量的近 80%,抓取机器人占剩下的 20%。
爬虫机器人通常会抓取公开可访问、有权威的网站内容。报告显示,AI 爬虫流量几乎全部被几家公司瓜分:Meta、Google 和 OpenAI 三家加起来占了 95%,其中 Meta 占 52%,Google 23%,OpenAI 20%。
抓取机器人就像模型的“小助理”,当 AI 回答问题时,它们会找相关的网页或资料。数据显示,几乎所有抓取请求里,ChatGPT-User 和 OpenAI SearchBot 共计占 98%。
报告指出,排名前四的爬虫公司似乎对商业网站特别感兴趣。再来看一看 AI 爬虫的流量趋势。数据显示,近几个月以来,Meta 的爬虫明显在加速。
同时,大多数爬虫的频次都随性,有时会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。
确实,不合理的 AI 机器人设计会给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候,更让人头疼。
一位名为 Xe Iaso 的 FOSS 开发者曾公开怒斥亚马逊的 AI 爬虫工具。然而公开喊话并未震慑到对方。于是他自己开发了一套叫“Anubis”的系统。
还有一些开发者采取了更“激烈”的手段。比如 Ibrahim Diallo 发现一个网站在实时偷他的博客内容后,决定使用“ZIP 炸弹”。这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几 GB 的“垃圾”文件瞬间释放,直接让系统崩溃。
验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 结合 AI 推出了一种《毁灭战士》式验证码。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。
大型网络基础设施公司也在行动。之前 Cloudflare 发布了 AI迷宫(AI Labyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫。
通过这些“反爬虫机制”,那些靠爬虫到处薅内容的 AI 公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿成本变得更高、不划算。
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440000.html