营销爬虫主要是为企业营销提供帮助的一些工具,为了确定目标网站的内容,而开发出来的爬虫。
营销爬虫主要分为以下几类:
SEO类爬虫:
这类爬虫主要是分析网站的外链数量,反向链接,发现网站存在的SEO问题,关键词研究等工具的爬虫,代表有如下几个:
-
DotBot, User-Agent: Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
-
SEOkicks-Robot, User-Agent: Mozilla/5.0 (compatible; SEOkicks-Robot; +http://www.seokicks.de/robot.html)
广告投放类爬虫:
这类爬虫主要是向发布商平台抓取内容,确定内容相关性,并投放相关广告,代表的爬虫有如下几个:
-
Google AdSense, User-Agent: Mediapartners-Google
-
CriteoBot, User-Agent: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)
客户体验解决方案:
这类爬虫是整个的一个解决方案,里面包含很多内容,从:广告、营销、销售、客户服务等提供一站式解决方案,大表的有如下几个:
-
Oracle Data Cloud Crawler](https://www.pdflibr.com/crawler/0racle-data-cloud-crawler), User-Agent: Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)
-
HubSpot Crawler, User-Agent: HubSpot Crawler 1.0 http://www.hubspot.com/
以上总结了3种营销爬虫,如果需要屏蔽营销爬虫,可以通过 Robots 协议屏蔽就,如果不遵守 Robots 协议,可以直接将 IP 加入黑名单,但是如果屏蔽广告投放类爬虫,可能会对发布商收入有一定影响。
是否屏蔽这些营销爬虫,还是要根据实际情况确定。