搜索引擎爬虫有时也被称为蜘蛛或spiderbot,是一个系统的浏览了万维网的网络机器人系统,通常是为搜索引擎建立索引。
Web搜索引擎和某些其他网站使用Web爬网或爬虫软件来更新其Web内容或其他站点的Web内容的索引。Web搜寻器会复制页面以供搜索引擎处理,搜索引擎会对下载的页面建立索引,以便用户可以更有效地搜索。
搜索引擎爬虫会定期访问网站,抓取已知的页面,以确定自上次爬网以来是否对页面内容进行了任何更改。如果搜索引擎在抓取页面后检测到页面更改,它将响应这些检测到的更改来更新其索引。
常见的有哪些搜索引擎爬虫
可以从用户代理字符串(User-Agent)中识别出正在抓取网站的搜索引擎机器人,他们在抓取网页之后将内容传递给搜索引擎服务器做进一步处理。
以下是搜索引擎使用的用户代理字符串的一些示例:
- Googlebot User Agent
Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
- Bingbot User Agent
Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
- Baidu User Agent
Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
- Yandex User Agent
Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)
搜索引擎爬虫为您的网站建立索引,使更多的访客知道您,所以建议您不要屏蔽这类爬虫。