主要内容
Reddit 称已发现 AI 公司从互联网档案馆的“时光机”中抓取其数据,因此将开始阻止互联网档案馆对绝大多数 Reddit 内容进行索引。“时光机”将不再能够抓取帖子详情页面、评论或个人资料,而只能索引 Reddit.com 的首页,这实际上意味着互联网档案馆只能存档关于某一天哪些新闻标题和帖子最受欢迎的信息。
Reddit 发言人蒂姆·拉茨施密特向 The Verge 表示:“互联网档案馆为开放网络提供服务,但我们已注意到 AI 公司违反平台政策(包括我们的政策)并从‘时光机’中抓取数据的情况。”互联网档案馆的使命是保存互联网上网站的数字档案和“其他文化文物”,“时光机”是一种可以查看特定日期页面的工具,但 Reddit 认为并非其所有内容都应以这种方式存档。
拉茨施密特称:“在他们能够保护其网站并遵守平台政策(例如尊重用户隐私,关于删除已删除内容)之前,我们将限制他们对 Reddit 数据的部分访问,以保护 Redditors。”这些限制将从今天开始“逐步增加”,Reddit 称已提前联系互联网档案馆,在限制生效之前通知他们。他表示,Reddit 过去也曾对人们从互联网档案馆抓取内容的能力表示“担忧”。
Reddit 最近有切断抓取工具访问权限的历史,因为 AI 公司开始大规模使用(并滥用)这些工具,但如果公司付费,它愿意提供这些数据。去年,Reddit 与谷歌就谷歌搜索和 AI 训练数据达成协议,几个月后,它开始阻止主要搜索引擎抓取其数据,除非它们付费。它还表示,2023 年其臭名昭著的 API 更改导致一些第三方应用程序关闭并引发抗议,是因为这些 API 被滥用来训练 AI 模型。Reddit 还与 OpenAI 达成了一项 AI 协议,但在 6 月起诉了 Anthropic,称 Anthropic 在表示不再抓取后仍在抓取 Reddit 的数据。
“我们与 Reddit 有着长期的关系,并将继续就此事进行讨论,”“时光机”负责人马克·格雷厄姆在给 The Verge 的一份声明中表示。
更新:8 月 11 日,添加了“时光机”的声明。