爬虫识别支持 IPv6 地址访问 了解详情
ImageSiftBot 是一款网络爬虫,它可以从互联网上抓取公开可用的图像,以支持 Hive 的网络智能产品套件。
robots.txt 中针对 ImagesiftBot 的标准指令受到尊重。例如,以下内容将允许 ImagesiftBot 抓取除 /private/ 下的页面之外的所有页面:
User-Agent: ImagesiftBot
Allow: /
Disallow: /private/
ImagesiftBot 还支持 robots.txt 文件中的 crawl-delay 指令。它将值解释为连续请求开始之间的最短持续时间(以秒为单位)。例如,假设您在 robots.txt 文件中指定了以下内容:
User-Agent: ImagesiftBot
Crawl-delay: 5
ImagesiftBot 将把每天分成 5 秒的间隔,并在每个间隔内向您的域发出最多一个请求。
如果没有针对 ImagesiftBot 的规则,但有针对 Googlebot 的规则,则 ImagesiftBot 将遵循 Googlebot 指令。例如,ImagesiftBot 将抓取所有页面,但 /private/ 下的页面除外,其 robots.txt 如下:
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 74.80.208.93 | 74-80-208-93.ic2net.net | US | |
2 | 64.124.8.103 | 64.124.8.103.available.above.net | US | |
3 | 74.80.208.188 | 74-80-208-188.ic2net.net | US | |
4 | 74.80.208.187 | 74-80-208-187.ic2net.net | US | |
5 | 64.124.8.125 | 64.124.8.125.available.above.net | US | |
6 | 64.124.8.180 | 64.124.8.180.available.above.net | US | |
7 | 64.124.8.123 | 64.124.8.123.available.above.net | US | |
8 | 64.124.8.158 | 64.124.8.158.available.above.net | US | |
9 | 74.80.208.69 | 74-80-208-69.ic2net.net | US | |
10 | 74.80.208.206 | US |