爬虫识别支持 IPv6 地址访问 了解详情
80legs是一个自动爬虫程序,可以根据客户要求抓取网站内容。
使用默认的 80legs 爬网应用程序来收集常见的 HTML 数据,例如链接,关键字,元标记等。
Voltron 在 80legs 网络爬虫平台上运行,该平台由许多服务器组成,这就是为什么您可能会看到我们的网络爬虫从许多不同的 IP 地址访问您的网站。
Voltron 是网络爬虫服务提供商 80legs 使用的用户代理。80legs 允许其用户设计和运行自定义网络爬虫。因此,如果 voltron 正在抓取您的网站,则意味着一个或多个 80legs 用户创建了一个(最终)访问您的网站的网络抓取。
如果您觉得 voltron 对您网站的抓取速度过快,请联系 voltron 爬虫管理员,以设置适合您的抓取速度。如果您希望 voltron 停止抓取您的网站,最好的办法是使用 robots.txt 规范阻止 voltron 网络抓取工具。为此,请将以下内容添加到您的 robots.txt:
User-agent: voltron
Disallow: /
如果您使用 robots.txt 阻止 voltron,您将看到抓取请求逐渐减少,而不是立即减少。这是因为 voltron 爬虫是分布式架构。我们的计算机只会定期接收它们正在抓取的域的 robots.txt 信息。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 34.235.160.223 | ec2-34-235-160-223.compute-1.amazonaws.com | US | |
2 | 54.83.164.164 | ec2-54-83-164-164.compute-1.amazonaws.com | US |