爬虫识别支持 IPv6 地址访问 了解详情
Twitterbot 在扫描 URL 时遵循 Google 的 robots.txt 规范。 如果带有卡片标记的页面被屏蔽,则不会显示任何卡片。 如果图像 URL 被阻止,则不会显示缩略图或照片。
Twitterbot/1.0 是 Twitter 抓取页面 Card 的爬虫程序。
Twitterbot/1.0 遵守 robots.txt 协议,如果要屏蔽 Twitterbot 写法如下:
User-agent: Twitterbot
Disallow: *
如果只允许 Twitterbot 抓取部分网站目录,写法如下:
User-agent: Twitterbot
Disallow: *
Allow: /images
Allow: /archives
只允许 Twitterbot 抓取 /images
和/archives
目录。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 192.133.77.18 | r-192-133-77-18.twttr.com | US | |
2 | 192.133.77.14 | r-192-133-77-14.twttr.com | US | |
3 | 192.133.77.15 | r-192-133-77-15.twttr.com | US | |
4 | 199.16.157.180 | r-199-16-157-180.twttr.com | US | |
5 | 192.133.77.16 | r-192-133-77-16.twttr.com | US | |
6 | 192.133.77.17 | r-192-133-77-17.twttr.com | US | |
7 | 199.16.157.183 | r-199-16-157-183.twttr.com | US | |
8 | 199.16.157.182 | r-199-16-157-182.twttr.com | US | |
9 | 199.16.157.181 | r-199-16-157-181.twttr.com | US | |
10 | 199.59.150.180 | r-199-59-150-180.twttr.com | US |