搜索引擎与爬虫
使用 WordPress mShots 截图 API
WordPress 的 mShots 是一个屏幕截图工具,有时候也被称为:屏幕快照工具。
WordPress mShots 工作原理是:
-
获取网站链接:https://www.pdflibr.com
-
URL 编码:
https%3A%2F%2Fwww.pdflibr.com
-
将其添加到此 URL 的末尾:
https://s0.wordpress.com/mshots/v1/
-
最后
?w=1000
到最后:https://s0.wordpress.com/mshots/v1/https%3A%2F%2Fwww.pdflibr.com?w=1000
有几点需要注意:第一次向服务发送 URL 时,它会回复 HTTP 307(临时重定向),你会得到这个图像:
等待几秒钟并再次请求 URL,您现在应该有图像了。
您可以更改图像的高度 h=500
。例如:https://s0.wp.com/mshots/v1/https%3A%2F%2Fwww.pdflibr.com?w=1000&h=500
您可以通过更改 ?w=800
来更改屏幕截图的最大宽度。最大图像尺寸为 1280x960。更改宽度不会影响视口,只会影响返回图像的大小。
下面是 IP 查询 - 爬虫识别 官网的截图图片:
可以看到 WordPress mShots 当前的 User-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/99.0.4844.0 Safari/537.36 WordPress.com mShots
同时我们可以从这里查询 WordPress mShots 的 IP 地址段。