
维基百科正试图通过发布专门针对训练AI模型而优化的数据集,来阻止人工智能开发人员抄袭该平台。维基媒体基金会周三宣布,已与谷歌旗下托管机器学习数据的数据科学社区平台Kaggle合作,发布“英语和法语结构化维基百科内容”的测试版数据集。
维基百科表示,Kaggle 托管的数据集“在设计时充分考虑了机器学习的工作流程”,使 AI 开发人员能够更轻松地访问机器可读的文章数据,以进行建模、微调、基准测试、对齐和分析。数据集中的内容已公开授权,截至 4 月 15 日,内容包括研究摘要、简短描述、图像链接、信息框数据和文章章节,但不包括参考文献或音频文件等非书面元素。
维基百科表示,Kaggle 用户可以使用“结构良好的 JSON 格式维基百科内容”,这应该比“抓取或解析原始文章文本”更具吸引力。由于自动化 AI 机器人不断消耗平台带宽,维基百科的服务器目前承受着巨大的压力。维基百科已经与谷歌和互联网档案馆签署了内容共享协议,但与 Kaggle 的合作应该会让小型公司和独立数据科学家更容易获取这些数据。
Kaggle 合作伙伴负责人 Brenda Flynn 表示:“作为机器学习社区的工具和测试平台,Kaggle 非常高兴能够成为维基媒体基金会数据的托管平台。Kaggle 很高兴能够在确保这些数据的可访问性、可用性和实用性方面发挥作用。”