搜索引擎与爬虫

爬虫进行 IP 识别

Crawler performs IP recognition

通过查询 IP 识别爬虫

74.6.168.229 这是一个 IPv4 地址,一个 IP 地址存在有很多信息,例如:这个 IP 地址是一个美国纽约的 IP 地址,他属于 Oath Holdings Inc. 公司,同时他也是一个爬虫的 IP。

等等,他是一个爬虫的 IP ,你怎么看出来的?

我们可以通过 IP 反查,可以看到这个 IP 的 Hostname 是:g1026.crawl.yahoo.net,通过 Hostanme 我们可以看出来这个 IP 是 Yahoo 的搜索引擎爬虫,我们的判断是否正确呢?

为了验证我的判断是否正确,我在爬虫识别这个网站上输入此 IP 地址,看看此 IP 所属的爬虫信息:

Crawler performs IP recognition

通过查询此 IP 我们可以看出来,这个 IP 是 Yahoo Ad monitoring 的爬虫 IP ,Yahoo Ad monitoring又是一个什么爬虫,我们点击 Yahoo Ad monitoring 看看爬虫的具体信息:

Yahoo Ad monitoring

可以看出来 Yahoo Ad monitoring 是:雅虎广告监控是一个页面提取客户端,它检索与雅虎广告服务一起列出的 URL 的登录页面内容。着陆页内容用于提高页面广告列表的准确性以及由此产生的用户体验。

这个爬虫的 User-agent 是:Mozilla/5.0 (compatible; Yahoo Ad monitoring; https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html) tands-prod-eng.hlfs-prod---sieve.hlfs-desktop/1635432596-0

至此我们已经完全清楚了这个 IP 是属于那个爬虫,以及这个爬虫是干嘛的、爬虫的 User-agent 等信息。

至此上面的一个问题得到了完美的解答。