“许多网站运营者抱怨,他们的站点因AI机器人的疯狂抓取而崩溃,不仅需要自行承担高昂的流量费用,还眼睁睁看着自己的内容被用于训练AI模型,而他人却从中获利并吸引关注。”
自AI机器人技术普及以来,众多网站开发者面临严峻挑战,苦不堪言。近日,云服务巨头Fastly发布的一份研究报告揭示了更为残酷的现实:AI爬虫对互联网的冲击远超想象。
报告指出,当前AI爬虫正以惊人速度席卷网络,它们占据了AI机器人总流量的80%,而剩余的20%为按需抓取流量。
这些AI机器人对未设置防护措施的网站构成严重威胁——其峰值请求量甚至可达每分钟39,000次!这意味着,一个普通网站在一分钟内可能遭受上千次AI爬虫和抓取程序的“轰炸”,每秒钟都承受着超负荷的压力。
报告进一步揭露,Meta、OpenAI等主流AI大厂是主要责任方,为此,开发者们正积极筹备,开启一场“反击之战”。
Fastly在报告中根据行为和用途,将AI机器人分为两类:爬虫(Crawlers)和抓取(Fetchers)。
爬虫机器人类似于搜索引擎,它们系统性地扫描网站,收集内容以构建可搜索索引或训练语言模型,这是AI模型“训练阶段”的基础。
数据显示,爬虫机器人占AI机器人请求量的近80%,抓取机器人则占20%。
爬虫机器人通常针对公开可访问的权威网站内容,如新闻站点、教育资源、政府页面、技术文档或公开数据集。
报告显示,AI爬虫流量几乎被少数公司垄断:Meta、Google和OpenAI三家合计占95%,其中Meta占52%,Google占23%,OpenAI占20%。
抓取机器人则充当AI模型的“实时助手”,当AI回答问题时,它们迅速检索相关网页或资料,使模型能引用权威、最新的信息来支撑答案。这意味着,模型在生成回答时,不仅依赖内部记忆,还能实时参考外部数据,这一过程称为“推理阶段”。
数据显示,在几乎所有抓取请求中,ChatGPT-User和OpenAI SearchBot共占98%,表明OpenAI主要通过ChatGPT对网站抓取流量产生最大影响。其次,Perplexity的抓取请求量仅占1.53%,但其影响力正逐步上升。
报告进一步指出,排名前四的爬虫公司——Meta、Google、OpenAI和Claude——似乎对商业网站内容尤为青睐,经常“聚焦”此类资源。
观察AI爬虫的流量趋势,数据显示,近几个月来,Meta的爬虫活动明显“加速”。
同时,大多数爬虫行为较为随意,有时低调进行,流量平稳,导致许多网站可能未察觉自身内容被爬取。
然而,这些AI机器人流量偶尔也会异常激增,连续数天甚至数周,流量可能飙升至平时的2–3倍。
宏观数据背后,存在不少真实案例。例如,此前报道的乌克兰专注于人体3D模型的网站Trilegangers。
作为一家销售3D扫描数据的网站,Trilegangers的七名员工耗费十多年时间,建立了网络最大的“人体数字替身”数据库。不料,今年年初,这个运行良好的网站突然崩溃。CEO Oleksandr Tomchuk紧急召集工程师排查,发现即便网站已更新robots.txt文件,OpenAI仍使用600个IP进行数据抓取,直接导致网站瘫痪。
Tomchuk坦言,若爬虫行为更温和,他可能永远无法发现问题。为此,Tomchuk公开谴责:“他们的爬虫程序正在摧毁我们的网站!这实质上是一次DDoS攻击。”
确实,设计不合理的AI机器人可能无意中对网站服务器施加巨大压力,导致网站响应缓慢、服务中断,甚至增加运营成本。尤其是在大规模AI机器人流量激增时,问题更为突出。
Fastly在报告中分享了具体案例:
有爬虫峰值可达每分钟1,000次请求,虽然看似不高,但对依赖数据库查询或像Gitea这类提供Git仓库浏览的系统而言,短暂的高峰可能导致网站卡顿、超时或故障。
按需抓取情况更为极端:一次抓取器峰值竟达每分钟39,000次请求!即使无恶意意图,此类流量也会使服务器不堪重负,消耗带宽,甚至产生类似DDoS攻击的效果。
过量的机器人流量不仅损害用户体验,还会推高基础设施成本,并扭曲网站数据分析结果。
Fastly高级安全研究员Arun Kumar在报告中指出,AI机器人正在改变人们访问和体验互联网的方式,同时给数字平台带来新的复杂挑战。无论出于训练AI收集数据,还是实时提供答案,这些机器人都引发了可见性、控制和成本方面的难题。“无法察觉的事物难以保护,缺乏明确验证标准,AI自动化风险将成为数字团队的盲点。”
随着AI技术广泛应用及相关工具快速发展,AI爬虫事件似乎有增无减。面对这些“无视规则”的爬虫,开发者们开始主动反击,采用多种创新策略保护网站。
一位名为Xe Iaso的FOSS开发者曾于今年一月公开谴责亚马逊的AI爬虫工具,称其疯狂抓取自己的Git代码托管服务,导致网站频繁崩溃,几乎无法正常运行。
然而,公开抗议并未有效遏制爬虫行为,有时反而变本加厉。
忍无可忍的Xe Iaso自行开发了一套名为“Anubis”的系统(https://git.xeserv.us/)。
这是一种基于工作量证明(Proof-of-Work)的反爬虫机制。当用户访问启用Anubis的网站时,系统会要求浏览器完成基于SHA-256的PoW挑战。
该挑战需消耗一定计算资源,普通用户几乎感知不到延迟,但对大规模爬虫而言,额外计算开销显著增加抓取成本,从而有效抑制其活动。
部分开发者采取了更激烈的措施。例如,Ibrahim Diallo偶然发现某个网站在实时窃取其博客内容:每当用户访问该站点,对方便立即爬取他的最新文章,删除名称和品牌标识,伪造成原创内容。
起初,Ibrahim尝试“手动反击”,故意向爬虫提供虚假数据,导致对方搬运错误内容。但不久后,他认为这种方式效率低下,于是启用秘密武器——“ZIP炸弹”。
该“炸弹”工作原理是:当爬虫访问其网站时,服务器返回一个看似正常的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果数GB的“垃圾”文件瞬间释放,直接导致系统崩溃。
验证码也迎来游戏化创新。云服务平台Vercel的CEO Guillermo Rauch近期结合AI推出了一种《毁灭战士》(DOOM)式验证码。用户需在“噩梦模式”下击败三个敌人,才能证明人类身份并访问网站。
尽管这种方法能有效阻挡爬虫,但也使普通用户体验变得耗时繁琐。
大型网络基础设施公司同样在行动。此前,Cloudflare发布了AI迷宫(AI Labyrinth),专门应对未经授权的爬虫。系统检测到异常行为时,会将爬虫引入充满虚假页面的迷宫,消耗其资源并误导方向。Cloudflare透露,每天AI爬虫在其网络上发起超过500亿次请求,占总流量近1%。
通过这些“反爬虫机制”,依赖爬虫获取内容的AI公司将面临更高成本。由于流量被延迟、资源被消耗,它们不得不增加服务器和硬件投入。简言之,爬虫执行相同任务的成本变得更高,不再经济。
Fastly高级安全研究员Arun Kumar建议,小型网站尤其是动态内容丰富的站点,首先可通过配置robots.txt减少合规爬虫流量;若具备技术能力,还可部署如Anubis等系统进一步控制爬虫。
然而现实中,这些措施若使用不当,可能误伤正常用户,影响用户体验。
同时,正如Arun Kumar所言,「这场猫鼠游戏永无止境,爬虫总会进化,设法绕过各种陷阱。」
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212483.html