圈小蛙

在2013年存在的网页中,有38%在十年后已无法访问

互联网是一个庞大得难以想象的现代生活宝库,拥有数千亿个编入索引的网页。但是,即使全世界的用户都依赖网络来访问书籍、图片、新闻文章和其他资源,这些内容有时也会从人们的视野中消失。

皮尤研究中心(Pew Research Center)的一项最新分析显示,网络内容实际上是多么转瞬即逝:

这种“数字衰退”发生在许多不同的网络空间中。我们研究了截至2023年春季出现在政府网站、新闻网站以及维基百科页面“参考文献”部分的链接。分析发现:

为了了解“数字衰退”在社交媒体上的表现,皮尤研究中心还收集了2023年春季社交媒体平台X(当时称为Twitter)上的实时推文样本,并对其进行了三个月的跟踪,并发现:

研究人员利用了 Common Crawl 存档的网页,该服务定期存档互联网快照。从 2013 年到 2023 年研究人员每年收集了约 9 万个网页的样本,检查网页今天是否还能访问。结果发现,截至 2023 年 10 月,所有网页有四分之一无法访问,无法访问的情况分两种:16% 是网页不存在但域名还在,9% 是域名都没了。2013 年快照收集的网页中,有 38% 在 2023 年无法访问;2021 年收集的快照两年后有五分之一无法访问。

研究人员使用 Common Crawl 于 2023 年 3/4 月的快照分析了 50 万个政府网页,检查网页上的链接是否有效。在 4200 万个链接中 86% 是站内链接,这些政府网页绝大多数使用 HTTPS,6% 指向静态文件如 PDF,16% 的链接被重定向,6% 的网页无法访问,21% 的网页至少包含一个坏链。对新闻网站网页的分析发现,23% 的网页至少包含一个坏链,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同。54% 的维基百科网页参考链接至少包含一个死链。

Exit mobile version