爬虫识别

爬虫识别支持 IPv6 地址访问 了解详情

webarchiv.cz

爬虫识别 - 资源 > 未分类 > webarchiv.cz
webarchiv.czwebarchiv.cz 概况

webarchiv.cz

webarchiv.cz status 活动

webarchiv.cz 说明

在互联网上发表的文件数量正在急剧增长--其中许多文件经常变化,还有一些甚至正在丢失。如果具有研究价值的文献不被归档,国家文化遗产的相当一部分将永远消失。将网上诞生的文献归档并在国家书目中登记的责任,通常由国家图书馆和/或其他收藏图书馆承担。

Webarchiv项目的主要目的是在国家网络归档领域实施一个全面的解决方案,即化学在线出生的文件。这包括收集、归档和保存网络资源的工具和方法,以及提供对它们的长期访问。目前正在进行整个国家网络的大规模自动采集和有选择的归档,包括主题性的 "基于事件 "的收集。目前,这些方法正在测试中,是进一步研究的对象。为了以常规方式运行所有的业务,必须满足两个条件:必须提供长期的资金和解决当前的法律问题(主要是法定存款立法)。

heritrix/3.4.0
爬虫类别
首次出现时间
最后一次出现时间
是否遵守 robots.txt 协议
不明
说明:

严格从技术角度来看,收集在线文件是一个自动化的过程,由一套软件工具进行,根据预先指定的参数收集、索引和保存数据在档案中。目前,开源软件工具(Heritrix)被用于网络抓取。

除此之外,还在定义一套标准,用于选择网上出生的文件,以便在捷克国家书目中登记。

IP 地址总数
1
爬虫 IP 地址列表
# IP 地址 Hostname 国家代码 旗帜
1 195.113.133.220 CZ CZ flag
heritrix/3.4.0
爬虫类别
首次出现时间
最后一次出现时间
是否遵守 robots.txt 协议
不明
说明:

Heritrix 是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目。

IP 地址总数
2
爬虫 IP 地址列表
# IP 地址 Hostname 国家代码 旗帜
1 195.113.133.201 CZ CZ flag
2 195.113.133.200 CZ CZ flag
返回顶部