googleusercontent 是不是 Google 爬虫
有人经常问 googleusercontent 是 Google 搜索引擎的蜘蛛(GoogleBot)?
今天就这个问题,我们详细探讨一下。
首先我们需要知道 googleusercontent 是什么?
googleusercontent 是 Google Cloud 的云服务器的 hostname,例如:我这里有一台 Google cloud 的虚拟机实例,IP 地址是:34.92.90.x,我们通过 rDNS 查询,其结果为:x.90.92.34.bc.googleusercontent.com,可以看到其 hostname 正是 googleusercontent,不仅 Google cloud 的虚拟机实例会有 googleusercontent 的 hostname,其 负载均衡和 CDN 也会有以上的 hostname。
了解了 googleusercontent 的来历,我们再看看 GoogleBot 的 IP 特性,通过 GoogleBot 页面,我们可以看出,GoogleBot 的 hostname 一般是:*.googlebot.com,这个是最明显的区别。
还有一个重要的区别是:一般 GoogleBot IP 地址都是以 66.249.*.* 开头的 IP 地址。
通过以上对比,我们可以得出结论:googleusercontent 根本不是 Google 搜索引擎的爬虫,而是用人利用 Google Cloud 的虚拟机抓取你的网站内容,这些爬虫全部是伪造 GoogleBot 的爬虫程序。
我们见到这样的爬虫直接加入黑名单就可以了,如果还是不太确定,我们也可以使用爬虫识别工具来查询一下 IP 地址,具体使用方法,我在这篇文章:查询ip是否为爬虫已经详细介绍。
总结
首先通过介绍 googleusercontent 是什么,之后再探讨 GoogleBot 的一些特征,从而得出结论:googleusercontent 不是 Google 搜索引擎的爬虫(蜘蛛)程序。