爬虫识别支持 IPv6 地址访问 了解详情
ImageSiftBot 是一款网络爬虫,它可以从互联网上抓取公开可用的图像,以支持 Hive 的网络智能产品套件。
robots.txt 中针对 ImagesiftBot 的标准指令受到尊重。例如,以下内容将允许 ImagesiftBot 抓取除 /private/ 下的页面之外的所有页面:
User-Agent: ImagesiftBot
Allow: /
Disallow: /private/
ImagesiftBot 还支持 robots.txt 文件中的 crawl-delay 指令。它将值解释为连续请求开始之间的最短持续时间(以秒为单位)。例如,假设您在 robots.txt 文件中指定了以下内容:
User-Agent: ImagesiftBot
Crawl-delay: 5
ImagesiftBot 将把每天分成 5 秒的间隔,并在每个间隔内向您的域发出最多一个请求。
如果没有针对 ImagesiftBot 的规则,但有针对 Googlebot 的规则,则 ImagesiftBot 将遵循 Googlebot 指令。例如,ImagesiftBot 将抓取所有页面,但 /private/ 下的页面除外,其 robots.txt 如下:
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 64.124.8.215 | 64.124.8.215.available.above.net | US | |
2 | 74.80.208.185 | 74-80-208-185.ic2net.net | US | |
3 | 74.80.208.101 | 74-80-208-101.ic2net.net | US | |
4 | 64.124.8.156 | 64.124.8.156.available.above.net | US | |
5 | 64.124.8.222 | 64.124.8.222.available.above.net | US | |
6 | 64.124.8.139 | 64.124.8.139.available.above.net | US | |
7 | 74.80.208.104 | 74-80-208-104.ic2net.net | US | |
8 | 74.80.208.160 | 74-80-208-160.ic2net.net | US | |
9 | 64.124.8.237 | 64.124.8.237.available.above.net | US | |
10 | 64.124.8.198 | 64.124.8.198.available.above.net | US |