当前位置：首页 > 科技资讯 > 正文

AI爬虫争议升级：Perplexity挑战互联网共识

主机测评网
科技资讯
2026-04-20
490

去年，AI研究公司Epoch AI曾预测，到2028年，互联网上所有高质量的文本数据将被耗尽，AI行业将遭遇“数据墙”瓶颈。在这场争夺数据的激烈博弈中，AI厂商与数据拥有者之间的较量，无疑是过去两年互联网世界最引人注目的斗争之一。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第1张

随着斗争的升级，互联网世界过去二十余年建立的一系列准则被弃之如敝履，曾经熟悉的一切似乎都成为了过去式。日前，知名云服务提供商Cloudflare在博客中指控AI搜索独角兽Perplexity在网站已明确禁止AI爬虫抓取的情况下仍进行抓取，并采取了多种手段绕过防火墙、隐匿其抓取行为。

Cloudflare指出，相关网站已在robots.txt中明确禁止Perplexity的爬虫抓取内容，但Perplexity并未遵守这一规范。甚至在网站检测到Perplexity爬虫或其所属的ASN时，选择返回HTTP 403，即服务器理解请求但拒绝执行，以此阻止Perplexity爬虫的访问。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第2张

据悉，Perplexity的做法是更换用户代理（UA），后者代表用户进行网络活动的软件实体，可视为一张“网络身份证”。Perplexity将自己的爬虫伪装成Chrome UA，以躲避网站的拦截。

为了帮助客户免受Perplexity爬虫的骚扰，Cloudflare宣布将其从已验证的机器人列表中删除。对此，Perplexity公司发言人Jesse Dwyer直接否认了Cloudflare的说法，称Cloudflare的行为是在推销自己的服务，并指出博文中的截图显示没有内容被Perplexity爬虫访问。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第3张

值得一提的是，Perplexity在爬虫抓取内容上的前科累累。早在去年春季，AWS就宣布对Perplexity展开调查，原因是其被指控未经网站所有者同意，使用托管在AWS服务器上的爬虫程序抓取数据，且涉嫌违反robots.txt协议。

随后在今年6月，英国广播公司（BBC）也向Perplexity发出法律信件，以遏制其未经授权抓取其内容的行为。从Cloudflare的指责到AWS和BBC的介入，Perplexity的爬虫未经授权抓取内容几乎是板上钉钉的事实。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第4张

面对这一不利局面，Perplexity选择了攻击Cloudflare别有二心、并非急公好义。不久前，Cloudflare宣布推出Pay Per Crawl平台，为内容创作者和AI厂商提供数据交易的场所。显然，面对AI厂商无孔不入的爬虫，Cloudflare也想在这个乱局中分到一杯羹。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第5张

然而，即使Cloudflare渲染AI爬虫的威胁是为了自己的业务，显然也比Perplexity的行为要好得多。要知道，被Perplexity视若无睹的robots.txt是互联网世界的基石之一，它告诉网络爬虫哪些内容可以抓取、哪些不可以。一旦科技企业无视这些准则，最终将导致互联网内容资源被过度使用，创作者不再愿意分享自己的内容。

AI爬虫争议升级：Perplexity挑战互联网共识 AI爬虫 Perplexity 互联网共识数据抓取第6张