查询ip是否为爬虫
有的时候,我们需要判断一个 IP 地址是否为爬虫。
我们可以通过以下几种方式判断 IP 地址是否为爬虫:
使用爬虫识别工具
这个方法强烈推荐,主要是方便快捷,且互联网上大部分的爬虫都收录了,操作也十分简单。
我们只需要打开爬虫识别工具,只需要输入 IP 地址,就可以查询爬虫的详细信息了,下面以:116.179.37.120 来举例,我们输入此 IP 地址:
通过上图我们可以看出来这个 IP 是百度蜘蛛,而且还列举了一些其他信息,通过其他信息(rDNS)我们也可以确定这是一个百度的爬虫。
使用爬虫识别工具我们直接输入 IP 查询就可以了,可以说是傻瓜的操作,通过是通过查询结果,我们也可以了解这个爬虫的更多信息。
通过官方的 IP 地址段公告
有一些爬虫会公布自己的 IP 地址段,例如:360 爬虫,他在这里公布了自己的 IP 地址段:360蜘蛛IP。
这个方法的缺点是:并不是所有的爬虫都会公布自己的 IP 地址段,款且我们寻找官方公布的文档也很麻烦。
通过 rDNS 查询工具
通过上面的截图我们可以看出,一般搜索引擎爬虫都会有 HostName,我们可以通过 rDNS 查询工具查看 IP 地址的 HostName,再通过 ping HostName 的方式看看是不是原来的 IP 地址。
例如:66.249.79.105 这是 Google 搜索引擎爬虫 IP 地址,通过反向DNS查找工具,此 IP 的 HostName 为:crawl-66-249-79-105.googlebot.com
,我们再使用 ping 命令看看这个 HostName 是否是原来的 IP 地址:
ping crawl-66-249-79-105.googlebot.com
通过结果我们可以看出 IP 仍然是 66.249.79.105,说明这个 IP 是 Google 搜索引擎爬虫的 IP 地址。
通过上面操作,我们可以看到使用 rDNS 查询工具操作起来也十分麻烦。
总结
通过三种方式查询ip是否为爬虫,其中使用爬虫识别工具最简单,展示的结果也十分全面,而第二种和第三种方法都受到一些限制,操作起来也会遇到一些问题。