爬虫识别
搜索引擎与爬虫

baiduspider 与 百度云 ASN 总结

baiduspider 与 百度云 ASN 总结

最近在整理 Baiduspider 的时候,发现原来是百度蜘蛛的 IP 地址,现在变成了百度智能云的 IP 地址。

例如下面一个百度爬虫的日志记录:

180.76.5.196
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

通过查询 Hostname,其 Hostname 为:baiduspider-180-76-5-196.crawl.baidu.com,通过 ping Hostname 却没有记录。

但是我们通过查询180.76.5.196,得到的 ASN 如下:

baidu spider asn info

可以看到 ASN 所预留的信息为:北京百度网讯科技有限公司,经过查询这个公司是百度智能云的公司,隶属于百度。

之后我手头上也有一台百度智能云的服务器,通过查询其 IP 得到 ASN 的信息如下:

百度智能云 ASN 信息

可以看到,虽然 ASN 不同(一个是 AS55967,另外一个是:AS38365),但都是北京百度网讯科技有限公司的。

我们再看看正常百度蜘蛛的 IP 地址:116.179.37.182,通过查询,其 Hostname 为:baiduspider-116-179-37-182.crawl.baidu.com,通过 ping Hostname,得到的 IP 也是 116.179.37.182,看样子这个是百度蜘蛛的 IP 没错了。

通过刚才查询 IP 得到的ASN 如下:

baiduspider ASN

可以看到这个 IP 却属于中国联通 169 网络,是不是觉得很奇怪?

总结

通过对一些旧日志的整理,有一些 IP 原来是百度蜘蛛的现在却变成了百度智能云的 IP,但是却依然保留了百度蜘蛛的 Hostanme,但是 ping Hostname 却无法得到原来 IP,而且 ASN 查询到的信息也很具有迷惑性。

当我们网站有大量百度蜘蛛抓取的时候,一定要注意,如果不确定我们直接用爬虫查询这个工具确认一下。

这个问题也是我再整理百度爬虫的时候发现的,希望对大家有所帮助。

返回顶部