爬虫识别支持 IPv6 地址访问 了解详情
活动
Newspaper框架是 Python 爬虫框架中在 GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑 header、IP 代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。
总得来说,Newspaper 框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种 bug,例如获取不到 url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。
Newspaper 的 User-agent 如下:
newspaper/0.2.8
newspaper/0.3.0
newspaper/0.2.8 是 newspaper 爬虫的用户代理(User-agent)。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 2001:19f0:ac01:15bf:5400:4ff:fe38:c6f4 | US | ||
2 | 169.59.166.171 | ab.a6.3ba9.ip4.static.sl-reverse.com | US | |
3 | 202.55.225.187 | 187-225-55-202-static.chief.net.tw | TW | |
4 | 202.55.225.189 | 189-225-55-202-static.chief.net.tw | TW | |
5 | 14.246.145.30 | static.vnpt.vn | VN | |
6 | 202.55.225.130 | 130-225-55-202-static.chief.net.tw | TW | |
7 | 202.55.225.188 | 188-225-55-202-static.chief.net.tw | TW | |
8 | 18.212.56.91 | US | ||
9 | 34.238.190.181 | ec2-34-238-190-181.compute-1.amazonaws.com | US | |
10 | 34.91.241.48 | 48.241.91.34.bc.googleusercontent.com | NL |
Newspaper 是一个了不起的 Python 库,用于提取和整理文章。
Newspaper 提供 Instapaper 风格的文章提取。
# | IP 地址 | Hostname | 国家代码 | 旗帜 |
---|---|---|---|---|
1 | 34.147.73.15 | 15.73.147.34.bc.googleusercontent.com | NL | |
2 | 34.91.16.93 | 93.16.91.34.bc.googleusercontent.com | NL | |
3 | 35.204.25.15 | 15.25.204.35.bc.googleusercontent.com | NL | |
4 | 34.147.114.213 | 213.114.147.34.bc.googleusercontent.com | NL | |
5 | 34.90.133.159 | 159.133.90.34.bc.googleusercontent.com | NL | |
6 | 34.90.61.69 | 69.61.90.34.bc.googleusercontent.com | NL | |
7 | 35.204.26.63 | 63.26.204.35.bc.googleusercontent.com | NL | |
8 | 34.91.67.111 | 111.67.91.34.bc.googleusercontent.com | NL | |
9 | 35.204.57.7 | 7.57.204.35.bc.googleusercontent.com | NL | |
10 | 34.91.9.21 | 21.9.91.34.bc.googleusercontent.com | NL |