
负责监管维基百科(Wikipedia)和类似社区项目的维基媒体基金会的代表表示,自 2024 年 1 月以来,用于处理多媒体文件请求的带宽增加了 50%。
维基媒体基金会的 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在一篇公开帖子中解释道:“这种增长并非来自人类读者,而主要来自自动程序,这些程序从维基共享资源图像目录中抓取公开授权的图像,并将图像提供给人工智能模型。 ”
这种增长并非来自人类读者
“我们的基础设施是为了在高关注度事件期间承受来自人类的突然流量高峰而建立的,但抓取机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”
据维基百科用户称,维基百科基金会数据中心提供的最昂贵内容的流量中至少有 65% 是由机器人产生的,尽管这些软件代理仅占页面浏览量的 35% 左右。
这是由于维基媒体基金会的缓存方案,该方案将热门内容分发到全球各地的区域数据中心,以提高性能。机器人访问页面时不会考虑其受欢迎程度,而它们对不太热门内容的请求意味着必须从核心数据中心获取资料,这会消耗更多的计算资源。
维基百科人自己在我们最近关于此事的报告中指出,在过去一年左右的时间里,行为不端的机器人的疏忽大意一直是那些运营开源项目计算基础设施的人的普遍抱怨。
上个月,Git 托管服务 Sourcehut 批评了那些要求过高的网络爬虫,它们会为人工智能公司抓取内容。Diaspora 开发者Dennis Schubert、维修网站iFixit和ReadTheDocs等也对那些过于激进的人工智能爬虫提出了批评。
大多数网站都认识到提供带宽以满足机器人查询的需要是开展业务的成本,因为这些脚本访问有助于通过为搜索引擎编制索引使在线上下文更容易被发现。
但自从 ChatGPT 上线以及生成式人工智能蓬勃发展以来,机器人越来越愿意挖掘整个网站的内容,用于训练人工智能模型。这些模型最终可能会成为商业竞争对手,以订阅费或免费的方式提供它们所收集的聚合知识。这两种情况都有可能减少对源网站或产生在线广告收入的搜索查询的需求。
维基媒体基金会在其 2025/2026 年度规划文件中,作为“负责任地使用基础设施”部分的一部分,提出了一个目标,即“以请求率衡量,将抓取工具产生的流量减少 20%,以带宽衡量,减少 30%”。
我们希望促进人类消费
规划文件指出,维基百科及其多媒体存储库 Wikimedia Commons 对于训练机器学习模型具有不可估量的价值,并表示“我们必须优先考虑为谁服务,我们希望优先考虑人类消费,并优先利用我们稀缺的资源支持维基媒体项目和贡献者。”
除了站点可靠性工程师已经采取的针对性干预措施来阻止最恶劣的机器人之外,如何实现这一目标还只能留给人们去想象。
由于对滥用人工智能内容收集的担忧由来已久,不少用于阻止恶意爬虫的工具应运而生。这些工具包括:数据投毒项目,例如Glaze、Nightshade和ArtShield;以及基于网络的工具,例如Kudurru、Nepenthes、AI Labyrinth和Anubis。
去年,当网络对人工智能爬虫的不满情绪传到人工智能机器人的主要支持者(包括谷歌、OpenAI 和 Anthropic 等)时,他们开始尝试通过应用robots.txt指令来阻止人工智能爬虫访问网站,但是社交媒体网站Bluesky的robots.txt没有排除来自 Google、OpenAI或其他公司的爬虫。
但是,这些存储在网站根目录下、可供到达的网站爬虫读取的指令并未得到普遍部署或遵守。这种可选的声明式防御协议,如果不通过通配符来覆盖所有可能性,在只需更改名称即可避开黑名单条目的情况下,也无法应对这种情况。运营网站的人们普遍认为,行为不当的机器人会将自己误认为是Googlebot或其他一些被广泛容忍的爬虫,从而避免被屏蔽。
例如,Wikipedia.org 并没有在其 robots.txt 文件中屏蔽来自 Google、OpenAI 或 Anthropic 的人工智能爬虫。它屏蔽了一些因喜欢吞噬整个网站而被视为麻烦的机器人,但却没有收录大型商业人工智能公司的条目。