去年,AI研究公司Epoch AI曾预测,到2028年,互联网上所有高质量的文本数据将被耗尽,AI行业将遭遇“数据墙”瓶颈。在这场争夺数据的激烈博弈中,AI厂商与数据拥有者之间的较量,无疑是过去两年互联网世界最引人注目的斗争之一。
随着斗争的升级,互联网世界过去二十余年建立的一系列准则被弃之如敝履,曾经熟悉的一切似乎都成为了过去式。日前,知名云服务提供商Cloudflare在博客中指控AI搜索独角兽Perplexity在网站已明确禁止AI爬虫抓取的情况下仍进行抓取,并采取了多种手段绕过防火墙、隐匿其抓取行为。
Cloudflare指出,相关网站已在robots.txt中明确禁止Perplexity的爬虫抓取内容,但Perplexity并未遵守这一规范。甚至在网站检测到Perplexity爬虫或其所属的ASN时,选择返回HTTP 403,即服务器理解请求但拒绝执行,以此阻止Perplexity爬虫的访问。
据悉,Perplexity的做法是更换用户代理(UA),后者代表用户进行网络活动的软件实体,可视为一张“网络身份证”。Perplexity将自己的爬虫伪装成Chrome UA,以躲避网站的拦截。
为了帮助客户免受Perplexity爬虫的骚扰,Cloudflare宣布将其从已验证的机器人列表中删除。对此,Perplexity公司发言人Jesse Dwyer直接否认了Cloudflare的说法,称Cloudflare的行为是在推销自己的服务,并指出博文中的截图显示没有内容被Perplexity爬虫访问。
值得一提的是,Perplexity在爬虫抓取内容上的前科累累。早在去年春季,AWS就宣布对Perplexity展开调查,原因是其被指控未经网站所有者同意,使用托管在AWS服务器上的爬虫程序抓取数据,且涉嫌违反robots.txt协议。
随后在今年6月,英国广播公司(BBC)也向Perplexity发出法律信件,以遏制其未经授权抓取其内容的行为。从Cloudflare的指责到AWS和BBC的介入,Perplexity的爬虫未经授权抓取内容几乎是板上钉钉的事实。
面对这一不利局面,Perplexity选择了攻击Cloudflare别有二心、并非急公好义。不久前,Cloudflare宣布推出Pay Per Crawl平台,为内容创作者和AI厂商提供数据交易的场所。显然,面对AI厂商无孔不入的爬虫,Cloudflare也想在这个乱局中分到一杯羹。
然而,即使Cloudflare渲染AI爬虫的威胁是为了自己的业务,显然也比Perplexity的行为要好得多。要知道,被Perplexity视若无睹的robots.txt是互联网世界的基石之一,它告诉网络爬虫哪些内容可以抓取、哪些不可以。一旦科技企业无视这些准则,最终将导致互联网内容资源被过度使用,创作者不再愿意分享自己的内容。
因此,Perplexity这种破坏共识的行为无疑是一个不好的开端。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439105.html