因涉嫌盗用内容用于人工智能训练，Reddit起诉Perplexity

2025-10-22

新闻要点

Reddit起诉Perplexity及三家数据抓取公司非法获取其内容用于AI 。2024年5月Reddit曾发函要求Perplexity停止，但其引用量反而增加。Reddit认为对方通过抓取谷歌搜索结果获取内容。此事凸显AI数据获取乱象，影响内容平台权益。

- Reddit起诉 Perplexity等非法抓取数据用于AI

- 2024年5月 Reddit发函后Perplexity引用量增加

- Reddit称对方借谷歌搜索抓取内容用于AI

- AI数据获取乱象凸显内容平台权益问题

主要内容

Reddit 起诉 Perplexity 及三家“数据抓取服务提供商”，称其“要阻止一群不择手段的不法分子以工业规模非法规避数据保护，这些人会想尽一切办法获取 Reddit 上有价值的版权内容”。该公司将数据抓取公司（SerpApi、Oxylabs 和 AWMProxy）比作“潜在的银行劫匪”，“明知无法进入银行金库，便转而抢劫运送现金的运钞车”。Reddit 称 Perplexity 是“至少一家”数据抓取公司的客户，称其“显然会不择手段获取其迫切需要的 Reddit 数据以推动其‘答案引擎’——也就是说，除了像其一些竞争对手那样直接与 Reddit 达成协议外，什么都愿意做”。据诉讼称，Reddit 于 2024 年 5 月向 Perplexity 发出了停止侵权信，“要求其停止抓取 Reddit 数据”。尽管 Perplexity 当时告知 Reddit 其未使用 Reddit 内容训练 AI 模型且会尊重 Reddit 的 robots.txt，但在收到该信后，Perplexity 上的 Reddit 引用数量实际上有所增加。Reddit 还创建了一篇只能被 Google 抓取的帖子，“数小时内”，Perplexity“生成了该帖子的内容”。Reddit 写道：“Perplexity 能够获取该 Reddit 内容并将其用于其‘答案引擎’的唯一途径，是它和/或其共同被告从 Google 搜索结果页面抓取该 Reddit 内容，然后迅速将该数据整合到其答案引擎中。”Reddit 的数据——由人类撰写并排名的各种主题的帖子——对训练 AI 模型非常有帮助，该公司深知这一点；引发 2023 年抗议活动的 API 变更被定位为该公司为该数据获得补偿的一种方式。Reddit 已与包括 OpenAI 和 Google 在内的 AI 公司达成协议，据报道，它希望达成更好的协议。Reddit 此前曾对 Anthropic 采取法律行动，称 Anthropic 的机器人即使在 Anthropic 表示不会这样做之后仍访问了 Reddit 的平台。Reddit 首席法务官 Ben Lee 在一份声明中表示：“AI 公司正陷入一场争夺高质量人类内容的军备竞赛——这种压力催生了一个工业规模的‘数据清洗’经济。抓取器绕过技术保护窃取数据，然后将其出售给渴望培训材料的客户。Reddit 是一个主要目标，因为它是有史以来创建的最大和最具活力的人类对话集合之一。”Lee 表示：“被告 Oxylabs UAB、AWM Proxy 和 SerpAI——一家立陶宛数据抓取公司、一个前俄罗斯僵尸网络和一家公开宣传其不正当规避策略的公司——是这种非法行为的教科书式例子。由于无法直接抓取 Reddit，他们掩盖身份、隐藏位置并伪装其网络抓取器，从 Google 搜索中窃取 Reddit 内容。Perplexity 是至少其中一家抓取器的自愿客户，选择购买被盗数据，而不是与 Reddit 本身达成合法协议。”Perplexity 的通信主管 Jesse Dwyer 告诉 The Verge：“Perplexity 尚未收到诉讼，但我们将始终为用户自由、公平地获取公共知识的权利而奋力抗争。在我们用准确的 AI 提供事实性答案时，我们的方法仍然是有原则和负责任的，我们不会容忍对开放性和公共利益的威胁。”

因涉嫌盗用内容用于人工智能训练，Reddit起诉Perplexity

新闻要点

主要内容

关于我们