爬虫识别

爬虫识别支持 IPv6 地址访问 了解详情

CCBotCCBot 概况

None

CCBot

CCBot status 活动

CCBot 说明

CCBot 是一个基于 Nutch 的网络爬虫,它利用了 Apache Hadoop 项目。CCBot 使用 Map-Reduce 从爬网数据库中处理和提取目标候选者。该候选列表按主机(域名)排序,然后分发到一组蜘蛛(bot)服务器。

CCBot/2.0
爬虫类别
首次出现时间
最后一次出现时间
是否遵守 robots.txt 协议
遵守
说明:

CCBot 是一个基于 Nutch 的网络爬虫,将抓取的数据致力于免费向互联网研究人员、公司和个人提供互联网副本,以进行研究和分析。

当前的 User-Agent 为:CCBot/2.0 (http://commoncrawl.org/faq/)

IP 地址总数
128
爬虫 IP 地址列表
# IP 地址 Hostname 国家代码 旗帜
1 54.80.224.93 ec2-54-80-224-93.compute-1.amazonaws.com US US flag
2 54.198.241.211 ec2-54-198-241-211.compute-1.amazonaws.com US US flag
3 23.20.161.125 ec2-23-20-161-125.compute-1.amazonaws.com US US flag
4 54.80.217.80 ec2-54-80-217-80.compute-1.amazonaws.com US US flag
5 54.159.30.26 ec2-54-159-30-26.compute-1.amazonaws.com US US flag
6 54.167.29.208 ec2-54-167-29-208.compute-1.amazonaws.com US US flag
7 54.90.227.221 ec2-54-90-227-221.compute-1.amazonaws.com US US flag
8 54.234.90.191 ec2-54-234-90-191.compute-1.amazonaws.com US US flag
9 54.234.190.237 ec2-54-234-190-237.compute-1.amazonaws.com US US flag
10 54.90.217.44 ec2-54-90-217-44.compute-1.amazonaws.com US US flag
注:最多只显示10个 IP 地址
CCBot/2.0
爬虫类别
首次出现时间
最后一次出现时间
是否遵守 robots.txt 协议
遵守
说明:

CCBot 是一个基于 Nutch 的网络爬虫,将抓取的数据致力于免费向互联网研究人员、公司和个人提供互联网副本,以进行研究和分析。

当前的 User-Agent 为:CCBot/2.0 (https://commoncrawl.org/faq/)

IP 地址总数
350
爬虫 IP 地址列表
# IP 地址 Hostname 国家代码 旗帜
1 18.97.14.90 18-97-14-90.crawl.commoncrawl.org US US flag
2 44.197.195.138 ec2-44-197-195-138.compute-1.amazonaws.com US US flag
3 18.97.14.83 18-97-14-83.crawl.commoncrawl.org US US flag
4 18.97.14.81 18-97-14-81.crawl.commoncrawl.org US US flag
5 18.97.14.88 18-97-14-88.crawl.commoncrawl.org US US flag
6 18.97.9.175 18-97-9-175.crawl.commoncrawl.org US US flag
7 18.97.9.173 18-97-9-173.crawl.commoncrawl.org US US flag
8 3.234.222.163 ec2-3-234-222-163.compute-1.amazonaws.com US US flag
9 100.28.231.85 ec2-100-28-231-85.compute-1.amazonaws.com US US flag
10 3.235.145.252 ec2-3-235-145-252.compute-1.amazonaws.com US US flag
注:最多只显示10个 IP 地址
返回顶部