爬虫识别支持 IPv6 地址访问 了解详情
在互联网上发表的文件数量正在急剧增长--其中许多文件经常变化,还有一些甚至正在丢失。如果具有研究价值的文献不被归档,国家文化遗产的相当一部分将永远消失。将网上诞生的文献归档并在国家书目中登记的责任,通常由国家图书馆和/或其他收藏图书馆承担。
Webarchiv项目的主要目的是在国家网络归档领域实施一个全面的解决方案,即化学在线出生的文件。这包括收集、归档和保存网络资源的工具和方法,以及提供对它们的长期访问。目前正在进行整个国家网络的大规模自动采集和有选择的归档,包括主题性的 "基于事件 "的收集。目前,这些方法正在测试中,是进一步研究的对象。为了以常规方式运行所有的业务,必须满足两个条件:必须提供长期的资金和解决当前的法律问题(主要是法定存款立法)。
严格从技术角度来看,收集在线文件是一个自动化的过程,由一套软件工具进行,根据预先指定的参数收集、索引和保存数据在档案中。目前,开源软件工具(Heritrix)被用于网络抓取。
除此之外,还在定义一套标准,用于选择网上出生的文件,以便在捷克国家书目中登记。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 195.113.133.220 | CZ |
Heritrix 是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 195.113.133.201 | CZ | ||
2 | 195.113.133.200 | CZ |