首先注意 BLEXBot 是:
-
仅收集任何随机访问者都可以访问的公开信息。如果您认为爬虫收集了一些敏感信息,请将其从公共访问中删除。
-
不能让您的网站超载并对其造成任何伤害 - BLEXBot 的设计非常有礼貌,每 3 秒最多只能点击 1 次。此外,您可以轻松减慢 BLEXBot(以及任何其他机器人/爬虫,它们从您网站上的 robots.txt 文件获取指示)。
-
不会读取、解析、收集或存储来自您网站的任何信息,但不会读取、解析、收集或存储来自您页面的链接。这是指您页面上的任何文本、图形或视频材料或任何其他内容。
使用robots.txt文件,您可以阻止 BLEXBot Crawler 访问您网站的部分或全部或减慢它的速度,如以下示例所示:
阻止您网站的特定部分:
User-agent: BLEXBot
User-agent: BLEXBot
Disallow: /private/
阻止整个站点:
User-agent: BLEXBot
Disallow: /
减慢爬虫:
User-agent: BLEXBot
Crawl-delay: 10
注意:一旦您对robots.txt进行了更改,请给抓取工具最多 10 分钟的时间,以完全停止抓取您的网站。这是因为某些页面可能已经在处理队列中,因此我们不能保证爬虫能够立即停止。但是,它应该在最多 10 分钟后完全停止爬行。