搜索引擎与爬虫

查询ip是否为爬虫

查询ip是否为爬虫

有的时候,我们需要判断一个 IP 地址是否为爬虫。

我们可以通过以下几种方式判断 IP 地址是否为爬虫:

使用爬虫识别工具

这个方法强烈推荐,主要是方便快捷,且互联网上大部分的爬虫都收录了,操作也十分简单。

我们只需要打开爬虫识别工具,只需要输入 IP 地址,就可以查询爬虫的详细信息了,下面以:116.179.37.120 来举例,我们输入此 IP 地址:

爬虫 IP 查询结果

通过上图我们可以看出来这个 IP 是百度蜘蛛,而且还列举了一些其他信息,通过其他信息(rDNS)我们也可以确定这是一个百度的爬虫。

使用爬虫识别工具我们直接输入 IP 查询就可以了,可以说是傻瓜的操作,通过是通过查询结果,我们也可以了解这个爬虫的更多信息。

通过官方的 IP 地址段公告

有一些爬虫会公布自己的 IP 地址段,例如:360 爬虫,他在这里公布了自己的 IP 地址段:360蜘蛛IP

这个方法的缺点是:并不是所有的爬虫都会公布自己的 IP 地址段,款且我们寻找官方公布的文档也很麻烦。

通过 rDNS 查询工具

通过上面的截图我们可以看出,一般搜索引擎爬虫都会有 HostName,我们可以通过 rDNS 查询工具查看 IP 地址的 HostName,再通过 ping HostName 的方式看看是不是原来的 IP 地址。

例如:66.249.79.105 这是 Google 搜索引擎爬虫 IP 地址,通过反向DNS查找工具,此 IP 的 HostName 为:crawl-66-249-79-105.googlebot.com,我们再使用 ping 命令看看这个 HostName 是否是原来的 IP 地址:

ping crawl-66-249-79-105.googlebot.com

通过结果我们可以看出 IP 仍然是 66.249.79.105,说明这个 IP 是 Google 搜索引擎爬虫的 IP 地址。

通过上面操作,我们可以看到使用 rDNS 查询工具操作起来也十分麻烦。

总结

通过三种方式查询ip是否为爬虫,其中使用爬虫识别工具最简单,展示的结果也十分全面,而第二种和第三种方法都受到一些限制,操作起来也会遇到一些问题。