搜索引擎与爬虫

新增百度联盟 PC 版爬虫 IP 地址段

新增百度联盟 PC 版爬虫

百度联盟隶属于全球最大的中文搜索引擎—百度, 依托百度强大的品牌号召力,经过多年精心运营,已发展成为国内最具实力的联盟体系之一。 依托于全球最大的中文搜索,百度联盟日均有上百亿次的广告展现,合作伙伴数量近百万,服务的广告主数量逾80万家。

百度联盟官方公告的 User-agent 是:Baiduspider-cpro,但是经过爬虫识别 - IP 查询网站监测,一直没有看到相关的 User-agent 访问,并且爬虫识别 - IP 查询网站已经投放了百度联盟的广告。

后来经过不断测试,最终确定Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Mobile Safari/537.36为百度联盟的手机版本抓取爬虫

我们知道广告都是根据网站内容来精准投放的,所以一定有爬虫抓取网站之后,才开始精准投放相关广告,那必定有广告发布商的爬虫来抓取网站内容。

经过日志分析,以及互联网公开数据分析,没有看到百度官方公布的百度联盟爬虫来抓取,所以一定是更换了爬虫的 UA,所以才会造成此现象。

我在另外一篇文章也分析了百度联盟手机版本爬虫是如何获取的,文章是:百度联盟 User-agent 与 IP,大家可以去看看。

但是 PC 版本不能按照相同办法获取百度联盟 PC 网站抓取爬虫,通过不断收集百度联盟手机版本爬虫信息,最后经过对比,发现了百度联盟 PC 网页的爬虫 UA 如下:

  • Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0

  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36

我们找到在线 UA 解析工具,解析此 UA 可以看出来是一个 Windows 7 + Firefox 43.0 版本组成的 UA,同时仅仅根据 UA 来判断还是不准确的(UA 可以伪造),我们还要根据 IP 地址经行判断,我们找到百度联盟爬虫 IP 地址段,查看百度联盟的 IP 地址。

同时百度联盟的 UA 不断变化,我们也在不断更新。

我们可以使用 UA + IP 的方式在爬虫IP查询,查询百度联盟的爬虫。

通过以上的操作我们基本就可以确定百度联盟的爬虫了。