爬虫识别
搜索引擎与爬虫

googlebot user agent

aurora

通常 Googlebot 是下面的样式:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

这个是 Google 搜索引擎 PC 版本的 User-agent,但是 Googlebot 还有其它的一些 User-agent,通过这个页面:Googlebot,我们可以看到有非常多的 User-agent。

例如:

  • Googlebot-Image/1.0:这个主要是图片搜索引擎的爬虫代理程序;

  • Googlebot-Video/1.0:这个主要是视频搜索引擎的爬虫代理程序;

  • SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html):这个是手机版本的搜索引擎爬虫代理程序;

  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.5672.126 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html):这个版本的变体非常多,几乎每一个新版本的 Chrome 浏览器更新,这个 User-agent Chrome 版本号都会改变;

  • 还有一些其它 Google 产品的爬虫用户代理,例如:Google AdsenseGoogle Ads 等,这都属于 Google 的爬虫程序。

总之,通过 Googlebot user agent 检查是否是爬虫可能存在一些难度,这些难度主要是:

  • User-agent 可以被伪造;

  • Google 产品非常多,很难通过 User-agent 判断到底属于 Google 的哪一类产品;

  • Google user agent 更新也很快,经常 Chrome 版本更新,也会产生一个新的 user agent 信息。

易于以上原因,我们只能通过专业的工具检测是不是真正的 Google 爬虫程序。

返回顶部