爬虫识别支持 IPv6 地址访问 了解详情
Amazon AdBot 是亚马逊不同广告服务部门使用的爬虫,用于确定网站的内容,以便提供相关和适当的广告。Amazon AdBot 只抓取亚马逊或广告商合作伙伴可能提供广告的网站。
Amazon AdBot 是亚马逊不同广告服务用来确定网站内容以提供相关和适当广告的爬虫。
遵守 robots.txt 协议,具体写法如下:
User-agent: AmazonAdBot
Disallow: /
同时也可以设置抓取延迟:
User-agent: AmazonAdBot
Crawl-Delay: 2
Crawl-Delay 设置为 2,表示两个抓取之间有 2 秒的延迟。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 3.216.51.216 | crawler-3-216-51-216.amazonadbot.com | US | |
2 | 54.166.7.90 | crawler-54-166-7-90.amazonadbot.com | US | |
3 | 52.70.140.52 | crawler-52-70-140-52.amazonadbot.com | US | |
4 | 18.210.110.133 | crawler-18-210-110-133.amazonadbot.com | US | |
5 | 54.163.37.67 | crawler-54-163-37-67.amazonadbot.com | US |
Amazonbot 是亚马逊的网络爬虫,用于改善亚马逊的服务,例如使 Alexa 能够回答更多客户的问题。Amazonbot 遵循标准的 robots.txt 规则。
如何识别 Amazonbot?在用户代理字符串中,您会看到“Amazonbot”以及其他附加代理信息。一个示例看起来像这样:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
您如何控制Amazonbot在您的网站上爬取什么?
Robots.txt:Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中,Amazonbot 不会爬取位于 /do-not-crawl/ 或 /not-allowed 下的文档:
User-agent: Amazonbot # Amazon's user agent
Disallow: /do-not-crawl/ # disallow this directory
User-agent: * # any robot
Disallow: /not-allowed/ # disallow this directory
AmazonBot 不支持 robots.txt 中的 crawl-delay 指令,也不支持 HTML 页面上的 robots 元标记,如:
<a href="signin.php" rel=nofollow>Sign in </a>
...
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 3.94.40.182 | 3-94-40-182.crawl.amazonbot.amazon | US | |
2 | 34.199.252.22 | 34-199-252-22.crawl.amazonbot.amazon | US | |
3 | 52.200.58.199 | 52-200-58-199.crawl.amazonbot.amazon | US | |
4 | 52.70.123.241 | 52-70-123-241.crawl.amazonbot.amazon | US | |
5 | 23.21.204.95 | 23-21-204-95.crawl.amazonbot.amazon | US | |
6 | 23.20.178.124 | 23-20-178-124.crawl.amazonbot.amazon | US | |
7 | 3.93.211.16 | 3-93-211-16.crawl.amazonbot.amazon | US | |
8 | 44.216.172.204 | 44-216-172-204.crawl.amazonbot.amazon | US | |
9 | 34.225.24.180 | 34-225-24-180.crawl.amazonbot.amazon | US | |
10 | 54.157.84.74 | 54-157-84-74.crawl.amazonbot.amazon | US |
Amazonbot 是亚马逊的网络爬虫,用于改善亚马逊的服务,例如使 Alexa 能够回答更多客户的问题。Amazonbot 遵循标准的 robots.txt 规则。
如何识别 Amazonbot?
在用户代理字符串中,您会看到“Amazonbot”以及其他附加代理信息。一个示例看起来像这样:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
您如何控制Amazonbot在您的网站上爬取什么?
Robots.txt:Amazonbot 尊重 robots.txt 中的 user-agent 和 Disallow 指令。在下面的示例中,Amazonbot 不会爬取位于 /do-not-crawl/ 或 /not-allowed 下的文档:
User-agent: Amazonbot # Amazon's user agent
Disallow: /do-not-crawl/ # disallow this directory
User-agent: * # any robot
Disallow: /not-allowed/ # disallow this directory
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 52.70.240.171 | 52-70-240-171.crawl.amazonbot.amazon | US | |
2 | 23.22.35.162 | 23-22-35-162.crawl.amazonbot.amazon | US | |
3 | 3.224.220.101 | 3-224-220-101.crawl.amazonbot.amazon | US |