云flare称人工智能机器人“潜行抓取”被屏蔽网站 - AI News
云flare称人工智能机器人“潜行抓取”被屏蔽网站

云flare称人工智能机器人“潜行抓取”被屏蔽网站

2025-08-04

新闻要点

Cloudflare称Perplexity的AI机器人“隐身爬行”访问受限网站。Cloudflare收到客户投诉后测试发现,Perplexity在网站限制AI抓取时,会改变用户代理、IP地址和ASN绕过限制,每天涉及数万个域名和数百万请求。Perplexity称该报告是“炒作”。Cloudflare已将其从验证机器人名单中除名并采取封锁措施 。

- Cloudflare 指Perplexity 机器人“隐身爬行” 访问受限网站

- Perplexity 称Cloudflare 报告是“炒作” 存在误解

- Cloudflare 除名Perplexity 并推出封锁其“隐身爬行” 方法

主要内容

据 Cloudflare 的一份报告称,AI 搜索初创公司 Perplexity 被指规避旨在阻止其 AI 网络爬虫访问某些网站的限制。报告称,当 Perplexity 遇到封锁时,该初创公司会隐藏其爬虫身份,“试图绕过网站的偏好”。该报告加剧了人们对 Perplexity 未经许可获取内容的担忧,因为去年该公司曾被发现突破付费墙并忽略网站的 robots.txt 文件。当时,Perplexity 首席执行官 Aravind Srinivas 将此活动归咎于该网站使用的第三方爬虫。现在,作为全球最大的互联网架构提供商之一,Cloudflare 表示收到客户投诉,称即使在将偏好放入网站的 robots.txt 文件并创建 Web 应用程序防火墙 (WAF) 规则以限制对该初创公司 AI 机器人的访问后,Perplexity 的机器人仍可访问他们的网站。为了测试这一点,Cloudflare 称它创建了具有类似针对 Perplexity AI 爬虫限制的新域。它发现该初创公司首先会尝试通过将自身标识为其爬虫名称(“PerplexityBot”或“Perplexity-User”)来访问这些网站。但如果网站对 AI 抓取有限制,Cloudflare 称 Perplexity 会更改其用户代理——告诉网站你使用的是哪种浏览器和设备,或者访客是否是机器人的信息——以“模仿 macOS 上的 Google Chrome”。Cloudflare 称这种“未声明的爬虫”使用“轮换”IP 地址,该公司未将其列入其机器人使用的 IP 地址列表中。此外,Cloudflare 称 Perplexity 会更改其自治系统网络 (ASN),这是用于识别由单个运营商控制的 IP 网络组的数字,以绕过封锁。Cloudflare 写道:“在数万个域和每天数百万次请求中都观察到了这种活动。”Perplexity 发言人 Jesse Dwyer 在给 The Verge 的一份声明中称 Cloudflare 的报告是“炒作噱头”,并补充说“博客文章中有很多误解”。此后,Cloudflare 将 Perplexity 从已验证的机器人列表中删除,并推出了阻止 Perplexity“隐形抓取”的方法。Cloudflare 首席执行官 Matthew Prince 一直直言不讳地表示 AI 对出版商的“生存威胁”。上个月,该公司开始让网站要求 AI 公司付费来抓取其内容,并开始默认阻止 AI 爬虫。