如何使用 Robots 协议阻止 BLEXBot 抓取网站

首先注意 BLEXBot 是:

  1. 仅收集任何随机访问者都可以访问的公开信息。如果您认为爬虫收集了一些敏感信息,请将其从公共访问中删除。

  2. 不能让您的网站超载并对其造成任何伤害 - BLEXBot 的设计非常有礼貌,每 3 秒最多只能点击 1 次。此外,您可以轻松减慢 BLEXBot(以及任何其他机器人/爬虫,它们从您网站上的 robots.txt 文件获取指示)。

  3. 不会读取、解析、收集或存储来自您网站的任何信息,但不会读取、解析、收集或存储来自您页面的链接。这是指您页面上的任何文本、图形或视频材料或任何其他内容。

使用robots.txt文件,您可以阻止 BLEXBot Crawler 访问您网站的部分或全部或减慢它的速度,如以下示例所示:

阻止您网站的特定部分

User-agent: BLEXBot

User-agent: BLEXBot

Disallow: /private/

阻止整个站点

User-agent: BLEXBot

Disallow: /

减慢爬虫

User-agent: BLEXBot

Crawl-delay: 10

注意:一旦您对robots.txt进行了更改,请给抓取工具最多 10 分钟的时间,以完全停止抓取您的网站。这是因为某些页面可能已经在处理队列中,因此我们不能保证爬虫能够立即停止。但是,它应该在最多 10 分钟后完全停止爬行。

这篇文章是否对您有帮助?
如何改善这篇文章,使其对你更有帮助?
很有帮助
没有帮助

服务器出现错误,请稍后再试!