搜索引擎与爬虫

百度联盟 User-agent 与 IP

Baidu union user-agent and ip

百度联盟作为中国最具实力的联盟体系之一,同台具有四大优势:预算充足,流量全面、合作多元,样式丰富、精准匹配,高额变现、服务专业,运营高效。

百度联盟专注于国内的广告市场,分为:信息流广告、沉浸视频广告、开屏广告、小程序广告。

百度联盟与国外对标的是 Google AdSense。同时 Google AdSense 也有多种广告样式。

爬虫识别与 IP 查询 投放百度联盟有一段时间,但是按照官方的文档,一直没有看到百度联盟的爬虫来抓取网页。

通过查询百度所有产品的 User-agent,同时按照官方公告,User-agent 应该是:Baiduspider-cpro,但是查看日志,没有看到任何相关 User-agent。

在此我补充说明:网盟的爬虫机器人会抓取发布商的网站内容,以根据网站内容投放相关广告。所以只要你投放了网盟的广告,就会有代理商(Baidu、Google)的爬虫会抓取你网站。

在百度联盟的启用实验室页面找到了可以显示页面投放广告效果的地方,这个应该会抓取页面,应该会留下 User-agent:

baidu union user-agent and ip

可以看到已经抓取了网站,之后查看刚才访问页面的日志:

112.34.110.148

Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Mobile Safari/537.36

https://www.pdflibr.com/ip/216.224.120.188?DUP_FLAG=true

第一行是访问的 IP ,第二行是百度联盟的 User-agent,第三行是访问的页面,后面加了一个DUP_FLAG=true,具体含义不明。

后面经过多次测试,以及查看过去的日志,确认此 User-agent 就是百度联盟的 User-agent。

IP 地址我已经收集和整理在此处:百度联盟 IP 地址列表

百度联盟之所以没有按照官方公告的 User-agent 请求发布商的网站,我猜想应该是发布商判断百度联盟 User-agent 和 IP 之后,返回给百度联盟蜘蛛广告单价比较高的内容,之后网站便会展示广告单价高的广告 内容,以上只是我的一个猜想,并没有得到任何证实。

以上是我关于百度联盟的 User-agent 与百度联盟的 IP 地址收集和总结的数据,文章内容有不完善或不准确的地方,欢迎大家给我发邮件交流。