搜索引擎与爬虫

应控制的常见良性和恶性爬虫列表,以节省服务器资源并提升性能

应控制的常见良性和恶性爬虫列表,以节省服务器资源并提升性能

你认为谁是你最忠诚、最专注的访客?总是回来阅读更多你网站内容,并浏览所有页面的人是谁?没错,就是网络爬虫。爬虫的请求会给你的服务器增加额外负载,并且可能显著减慢速度。我们已经对数百个服务器进行了筛选,列出了“好”的搜索爬虫,它们帮助你增加在线可见性,以及“坏”的爬虫,它们没有任何价值。管理和优化你的网站以适应这些搜索引擎爬虫对于维持最佳服务器性能和提高整体用户体验至关重要。

访问日志截图

坏的爬虫

所列出的爬虫并不一定有害。您可以将它们视为“坏的机器人”,因为它们的请求量占用了过多的服务器资源和带宽。它们也被怀疑忽略了robots.txt 指令并继续进行网站扫描。然而,如果您有一个强大的服务器并且希望将您的网站信息和内容贡献给分析聚合器,阻止它们并不是必须的。如果没有受限制地访问您的网站,这些爬虫往往会遵守 robots.txt 中的延迟命令。

Majestic 是一家总部位于英国的专业搜索引擎,被13种语言和60多个国家的数十万家企业使用,旨在独立于基于消费者的搜索引擎绘制互联网地图。Majestic 还支持其他合法技术,帮助理解不断变化的网络结构。

AhrefsBot 是一个强大的网络爬虫,旨在增强 Ahrefs 在线营销工具集的功能。这个先进的机器人负责维护一个庞大的12万亿链接数据库,确保 Ahrefs 用户能够获得最全面和最及时的数据,满足其 SEO 需求。

SEMrushBot 是 SEMrush 发送的搜索引擎优化爬虫软件,用于发现和收集新的和更新的网络数据。SEMrushBot 收集的数据用于报告研究和图表。

DotBot 是 Moz.com 使用的网络爬虫。通过 DotBot 收集的数据在本网站、Moz 工具中显示,并且也可以通过 Mozscape API 获得。

  • 用户代理: MauiBot

一个在全球范围内扫描托管在亚马逊服务器上的网站的未知爬虫 - 这基本上是大多数站长对它的了解。通常会被阻止以避免其产生的大量请求。

良好的网络爬虫

良好的爬虫通常属于搜索引擎,被称为搜索爬虫。它们读取您的所有内容以在搜索结果中显示。它们总是介绍自己,并且从不忽视 robots.txt 命令。确保您永远不要在根级别阻止它们。否则,您将会损失很多流量。

Googlebot 是 Google 的网络爬虫。Googlebot的爬取过程始于从先前的爬取过程生成的网页 URL 列表,并通过站点管理员提供的 Sitemap 数据进行增强。当 Googlebot 访问每个网站时,它会检测每个页面上的链接(SRC 和 HREF),并将它们添加到要爬行的页面列表中。新站点、现有站点的更改和死链接都会被注意到并用于更新 Google 索引。

Bingbot 是标准的 Bing 爬虫,每天处理他们大部分的爬取需求。Bingbot 使用了几种不同的用户代理字符串,其中包括几种移动变体,用于爬行移动网络。

Slurp 是雅虎搜索用于爬行和索引网页信息的机器人。尽管一些雅虎搜索结果由他们的合作伙伴提供支持,但网站应允许雅虎 Slurp 访问,以便在雅虎移动搜索结果中出现。该爬虫还从合作伙伴网站收集内容,用于包含在雅虎新闻、雅虎财经和雅虎体育等站点中。

DuckDuckBot是DuckDuckGo的网络爬虫,这是一个近来变得相当流行的搜索引擎,因为它以隐私和不追踪用户而闻名。它现在每天处理超过1200万个查询。该爬虫有助于连接消费者和企业。

YandexBot 是俄罗斯最大的搜索引擎之一——Yandex 的网络爬虫,该搜索引擎产生了俄罗斯所有搜索流量的50%以上。Yandex 有几种类型的机器人,执行不同的功能。

  • 用户代理: PetalBot 或 AspiegelBot ?

    PetalBot 是 Petal 搜索引擎的自动程序。PetalBot 的功能是访问 PC 和移动网站,并建立一个索引数据库,使用户能够在 Petal 搜索引擎中搜索您网站的内容。

如何控制爬虫?

您有两种控制机器人活动的方式——使用 robots.txt 或在服务器级别上操作。

Robots.txt

这是在大多数情况下足够的常见方式。禁止爬行整个网站的限制如下所示:

用户代理: 坏的机器人名称
Disallow: /

如果您想禁止某个特定目录,请添加下面的内容:

用户代理: 坏的机器人名称
Disallow: /directory_name/

使用 Crawl-delay 指令

Crawl-delay 指令是一个非官方指令,旨在通知爬虫减慢爬行速度,以免过载 Web 服务器。一些搜索引擎不支持此指令。

Crawl-delay: 1

服务器

如果您发现爬虫忽略 robots.txt 并继续抓取您的服务器资源,那么我们可以完全阻止它。

如果您使用 Apache,请在虚拟主机配置部分使用 htaccess 来阻止爬虫。如果您使用 NGINX,请应用 nginx.conf。

重要提示!配置服务器可能会很复杂,如果配置不正确可能会无用或有害。我们建议您向您的托管提供商询问,以正确的方式配置爬虫屏蔽。

结论

这个爬虫列表还远远不完整,旨在引起您对爬虫控制的关注,因为这可以提高您的服务器性能,并在某些情况下节省您的托管费用。对于扩展的“坏的爬虫列表”,您可以访问爬虫查询网站或者是 Bot Reports 网站。检查您的日志,并区分出那些帮助您的网站增长的爬虫和那些阻碍您发展的爬虫。