井底圈小蛙
关注科技圈

在2013年存在的网页中,有38%在十年后已无法访问

互联网是一个庞大得难以想象的现代生活宝库,拥有数千亿个编入索引的网页。但是,即使全世界的用户都依赖网络来访问书籍、图片、新闻文章和其他资源,这些内容有时也会从人们的视野中消失。

皮尤研究中心(Pew Research Center)的一项最新分析显示,网络内容实际上是多么转瞬即逝:

  • 截至2023年10月,2013年至2023年期间存在的所有网页中,有四分之一已无法访问。在大多数情况下,这是因为在一个正常运行的网站上删除或移除了单个网页。
  • 对于较旧的内容,这种趋势更加明显。2013年存在的网页中约有38%目前无法访问,而2023年存在的网页中这一比例仅为8%。

这种“数字衰退”发生在许多不同的网络空间中。我们研究了截至2023年春季出现在政府网站、新闻网站以及维基百科页面“参考文献”部分的链接。分析发现:

  • 23%的新闻网页至少包含一个损坏的链接,21%的政府网站网页也是如此。网站流量较高的新闻网站和流量较少的新闻网站包含损坏链接的可能性大致相同。地方政府网页(属于市政府的网页)尤其可能存在损坏的链接。
  • 54%的维基百科页面在其“参考文献”部分中至少包含一个指向不再存在的网页的链接。

为了了解“数字衰退”在社交媒体上的表现,皮尤研究中心还收集了2023年春季社交媒体平台X(当时称为Twitter)上的实时推文样本,并对其进行了三个月的跟踪,并发现:

  • 近五分之一的推文在发布几个月后就不再在网站上公开可见。在其中60%的情况下,最初发布推文的帐户被设为私有、暂停或完全删除。在另外40%中,账户持有人删除了个人推文,但账户本身仍然存在。
  • 某些类型的推文往往比其他类型的推文更容易消失。超过40%的土耳其语或阿拉伯语推文在发布后三个月内就在网站上消失了。使用默认个人资料设置的账户所发的推文尤其容易从公众视野中消失。

研究人员利用了 Common Crawl 存档的网页,该服务定期存档互联网快照。从 2013 年到 2023 年研究人员每年收集了约 9 万个网页的样本,检查网页今天是否还能访问。结果发现,截至 2023 年 10 月,所有网页有四分之一无法访问,无法访问的情况分两种:16% 是网页不存在但域名还在,9% 是域名都没了。2013 年快照收集的网页中,有 38% 在 2023 年无法访问;2021 年收集的快照两年后有五分之一无法访问。

研究人员使用 Common Crawl 于 2023 年 3/4 月的快照分析了 50 万个政府网页,检查网页上的链接是否有效。在 4200 万个链接中 86% 是站内链接,这些政府网页绝大多数使用 HTTPS,6% 指向静态文件如 PDF,16% 的链接被重定向,6% 的网页无法访问,21% 的网页至少包含一个坏链。对新闻网站网页的分析发现,23% 的网页至少包含一个坏链,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同。54% 的维基百科网页参考链接至少包含一个死链。

圈小蛙现已开通Telegram。单击此处加入我们的频道 (@quanxiaowa)并随时了解最新科技圈动态!

除特别注明外,本站所有文章均系根据各大境内外消息渠道原创,转载请注明出处。
文章名称:《在2013年存在的网页中,有38%在十年后已无法访问》
文章链接:https://www.qxwa.com/38-of-web-pages-that-existed-in-2013-are-no-longer-accessible-ten-years-later.html
分享到: 生成海报

评论 抢沙发

科技圈动态,尽在圈小蛙

联系我们关注我们