爬虫识别支持 IPv6 地址访问 了解详情
活动
如果您在这个网站上,那么您可能被我们的一个爬虫访问过,并且想知道它是什么以及为什么它爬取了您的网站。
Nicecrawler 每月抓取大约 3.3 亿个网站。
我们的目的是创建整个互联网的图像存档,因为它会随着时间的推移而变化,以进行历史保存。我们的爬虫使用 Chrome/jsoup 访问网站并拍摄他们看到的内容的快照。我们每个域最多抓取 25 个页面,并且一次打开的页面不会超过一个。
如果您一次只抓取一页,为什么我会看到多次点击?
Nicecrawler/1.1 爬虫使用 Chrome 浏览器。Nicecrawler/1.1 访问一个网站并等待它在浏览器中加载(包括所有图像、css、html、javascript)。这可确保爬虫在访问您的网站时准确地看到人类使用 Chrome 看到的内容。这就是为什么您可能会看到多个请求访问您的图像、html 和 css 文件的原因。
Nicecrawler/1.1 的 User-agent 是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Nicecrawler/1.1; +http://www.nicecrawler.com/) Chrome/90.0.4430.97 Safari/537.36
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 69.160.160.56 | crawler-56.nicecrawler.com | US | |
2 | 69.160.160.50 | crawler-50.nicecrawler.com | US | |
3 | 69.160.160.51 | crawler-51.nicecrawler.com | US | |
4 | 69.160.160.52 | crawler-52.nicecrawler.com | US | |
5 | 69.160.160.58 | crawler-58.nicecrawler.com | US | |
6 | 69.160.160.55 | crawler-55.nicecrawler.com | US |