主要内容
维基百科正试图阻止人工智能开发者抓取其平台,为此发布了一个专门针对训练人工智能模型优化的数据集。周三,维基媒体基金会宣布已与 Kaggle(一个由谷歌拥有的数据科学社区平台,提供机器学习数据)合作,发布了一个“英语和法语结构化维基百科内容”的测试版数据集。维基媒体称,Kaggle 托管的该数据集“是为机器学习工作流程而设计的”,使人工智能开发者更易于获取用于建模、微调、基准测试、对齐和分析的机器可读文章数据。数据集中的内容是公开许可的,截至 4 月 15 日,包括研究摘要、简短描述、图像链接、信息框数据和文章部分——但不包括参考资料或音频文件等非书面元素。维基媒体称,Kaggle 用户可用的“结构良好的维基百科内容 JSON 表示”应是“抓取或解析原始文章文本”的更有吸引力的替代方案,目前由于自动化人工智能机器人不断消耗平台带宽,这给维基百科的服务器带来了压力。维基媒体已经与谷歌和互联网档案馆达成了内容共享协议,但与 Kaggle 的合作应使该数据更易于被小公司和独立数据科学家访问。Kaggle 合作伙伴关系负责人布伦达·弗林表示:“作为机器学习社区获取工具和测试的场所,Kaggle 非常兴奋能成为维基媒体基金会数据的托管方。Kaggle 很高兴能在保持此数据可访问、可用和有用方面发挥作用。”