主要内容
Reddit 起诉 Perplexity 及三家“数据抓取服务提供商”,称其“要阻止一群不择手段的不法分子以工业规模非法规避数据保护,这些人会想尽一切办法获取 Reddit 上有价值的版权内容”。该公司将数据抓取公司(SerpApi、Oxylabs 和 AWMProxy)比作“潜在的银行劫匪”,“明知无法进入银行金库,便转而抢劫运送现金的运钞车”。Reddit 称 Perplexity 是“至少一家”数据抓取公司的客户,称其“显然会不择手段获取其迫切需要的 Reddit 数据以推动其‘答案引擎’——也就是说,除了像其一些竞争对手那样直接与 Reddit 达成协议外,什么都愿意做”。据诉讼称,Reddit 于 2024 年 5 月向 Perplexity 发出了停止侵权信,“要求其停止抓取 Reddit 数据”。尽管 Perplexity 当时告知 Reddit 其未使用 Reddit 内容训练 AI 模型且会尊重 Reddit 的 robots.txt,但在收到该信后,Perplexity 上的 Reddit 引用数量实际上有所增加。Reddit 还创建了一篇只能被 Google 抓取的帖子,“数小时内”,Perplexity“生成了该帖子的内容”。Reddit 写道:“Perplexity 能够获取该 Reddit 内容并将其用于其‘答案引擎’的唯一途径,是它和/或其共同被告从 Google 搜索结果页面抓取该 Reddit 内容,然后迅速将该数据整合到其答案引擎中。”Reddit 的数据——由人类撰写并排名的各种主题的帖子——对训练 AI 模型非常有帮助,该公司深知这一点;引发 2023 年抗议活动的 API 变更被定位为该公司为该数据获得补偿的一种方式。Reddit 已与包括 OpenAI 和 Google 在内的 AI 公司达成协议,据报道,它希望达成更好的协议。Reddit 此前曾对 Anthropic 采取法律行动,称 Anthropic 的机器人即使在 Anthropic 表示不会这样做之后仍访问了 Reddit 的平台。Reddit 首席法务官 Ben Lee 在一份声明中表示:“AI 公司正陷入一场争夺高质量人类内容的军备竞赛——这种压力催生了一个工业规模的‘数据清洗’经济。抓取器绕过技术保护窃取数据,然后将其出售给渴望培训材料的客户。Reddit 是一个主要目标,因为它是有史以来创建的最大和最具活力的人类对话集合之一。”Lee 表示:“被告 Oxylabs UAB、AWM Proxy 和 SerpAI——一家立陶宛数据抓取公司、一个前俄罗斯僵尸网络和一家公开宣传其不正当规避策略的公司——是这种非法行为的教科书式例子。由于无法直接抓取 Reddit,他们掩盖身份、隐藏位置并伪装其网络抓取器,从 Google 搜索中窃取 Reddit 内容。Perplexity 是至少其中一家抓取器的自愿客户,选择购买被盗数据,而不是与 Reddit 本身达成合法协议。”Perplexity 的通信主管 Jesse Dwyer 告诉 The Verge:“Perplexity 尚未收到诉讼,但我们将始终为用户自由、公平地获取公共知识的权利而奋力抗争。在我们用准确的 AI 提供事实性答案时,我们的方法仍然是有原则和负责任的,我们不会容忍对开放性和公共利益的威胁。”