爬虫识别
搜索引擎与爬虫

如何屏蔽 PetalBot

机器人

什么是 PetalBot?

PetalBot 是 Petal 搜索引擎的自动程序。PetalBot 的功能是同时访问PC 和移动网站,并建立索引数据库,使用户可以在Petal 搜索引擎中搜索您网站的内容。您可以通过分析 User-agent 字段来识别从 Petal 爬虫。

爬虫,robots

你为什么要阻止一些爬虫机器人?

知名搜索引擎的爬虫机器人和蜘蛛机器人的活动通常不影响网站负载,也不影响网站的工作速度。但大部分爬虫机器人是没有用的,而且它们会损害网站性能。

如何阻止 PetalBot 访问您的站点

您是否有不希望被搜索引擎索引的网站的某些部分?如果是这样,您可以阻止搜索网络爬虫访问您希望成为免费网络爬虫的页面或页面。它比您想象的要容易得多,而且这一切都与名为 robots.txt 的文件有关。 使用 Robots.txt 文件阻止 PetalBot 访问您的站点的示例:

User-agent: PetalBot

Disallow: /

上面的示例将禁止所有 PetalBot 抓取您的网站。

同时我们也可以限定某个页面,例如下面的示例:

User-agent: PetalBot

Allow: /w/api/

Disallow: /trap/

上面只允许 PetalBot 抓取 /w/api/ 页面,同时禁止 PetalBot 抓取 /trap/页面。

PetalBot 给 Web 服务器带来多大的压力

为了对目标资源有更好的检索结果,PetalBot 需要对你的网站保持一定的抓取量。PetalBot 尽量不给网站带来不合理的负载,PetalBot 会根据服务器容量、网站质量、网站更新频率等综合因素进行动态调整。

我们应该如何判断是否是 PetalBot 爬虫

首先是通过 User-agent 判断,PetalBot 爬虫主要有两个 User-agent ,一个是 PC,一个是手机的 User-agent。

  • PC 版本用户代理:Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

  • 手机版本用户代理:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

我们仅仅通过 User-agent 判断 PetalBot 爬虫是不准确的(因为:User-agent 可以伪造),我们还要根据 IP 地址判断,我们可以到爬虫查询这里输入 IP 来查询是否是 PetalBot 爬虫。

总结

这篇文章首先介绍了什么是 PetalBot 爬虫,之后如何使用 robots.txt 文件屏蔽 PetalBot 爬虫,最后我们应该如何通过 User-agent 和 IP 识别 PetalBot 爬虫。

返回顶部