googlebot user agent
通常 Googlebot 是下面的样式:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
这个是 Google 搜索引擎 PC 版本的 User-agent,但是 Googlebot 还有其它的一些 User-agent,通过这个页面:Googlebot,我们可以看到有非常多的 User-agent。
例如:
-
Googlebot-Image/1.0:这个主要是图片搜索引擎的爬虫代理程序;
-
Googlebot-Video/1.0:这个主要是视频搜索引擎的爬虫代理程序;
-
SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +
http://www.google.com/bot.html
):这个是手机版本的搜索引擎爬虫代理程序; -
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.5672.126 Mobile Safari/537.36 (compatible; Googlebot/2.1; +
http://www.google.com/bot.html
):这个版本的变体非常多,几乎每一个新版本的 Chrome 浏览器更新,这个 User-agent Chrome 版本号都会改变; -
还有一些其它 Google 产品的爬虫用户代理,例如:Google Adsense,Google Ads 等,这都属于 Google 的爬虫程序。
总之,通过 Googlebot user agent 检查是否是爬虫可能存在一些难度,这些难度主要是:
-
User-agent 可以被伪造;
-
Google 产品非常多,很难通过 User-agent 判断到底属于 Google 的哪一类产品;
-
Google user agent 更新也很快,经常 Chrome 版本更新,也会产生一个新的 user agent 信息。
易于以上原因,我们只能通过专业的工具检测是不是真正的 Google 爬虫程序。