搜索引擎与爬虫

googleusercontent 是不是 Google 爬虫

googleusercontent 是不是 Google 爬虫

有人经常问 googleusercontent 是 Google 搜索引擎的蜘蛛(GoogleBot)?

今天就这个问题,我们详细探讨一下。

首先我们需要知道 googleusercontent 是什么?

googleusercontent 是 Google Cloud 的云服务器的 hostname,例如:我这里有一台 Google cloud 的虚拟机实例,IP 地址是:34.92.90.x,我们通过 rDNS 查询,其结果为:x.90.92.34.bc.googleusercontent.com,可以看到其 hostname 正是 googleusercontent,不仅 Google cloud 的虚拟机实例会有 googleusercontent 的 hostname,其 负载均衡和 CDN 也会有以上的 hostname。

了解了 googleusercontent 的来历,我们再看看 GoogleBot 的 IP 特性,通过 GoogleBot 页面,我们可以看出,GoogleBot 的 hostname 一般是:*.googlebot.com,这个是最明显的区别。

GoogleBot IP 地址与 Hostname

还有一个重要的区别是:一般 GoogleBot IP 地址都是以 66.249.*.* 开头的 IP 地址。

通过以上对比,我们可以得出结论:googleusercontent 根本不是 Google 搜索引擎的爬虫,而是用人利用 Google Cloud 的虚拟机抓取你的网站内容,这些爬虫全部是伪造 GoogleBot 的爬虫程序。

我们见到这样的爬虫直接加入黑名单就可以了,如果还是不太确定,我们也可以使用爬虫识别工具来查询一下 IP 地址,具体使用方法,我在这篇文章:查询ip是否为爬虫已经详细介绍。

总结

首先通过介绍 googleusercontent 是什么,之后再探讨 GoogleBot 的一些特征,从而得出结论:googleusercontent 不是 Google 搜索引擎的爬虫(蜘蛛)程序。