搜索引擎与爬虫

什么是网络爬虫

黄兵

网站编辑

发布于：2022-03-31 11:02:17

网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比，网络爬虫运行的任务通常很简单，并且执行速度要快得多。

有些机器人是合法的——例如，Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例如，用于自动扫描网站以查找软件漏洞并执行简单攻击模式的机器人。

什么是僵尸网络

有许多类型的恶意软件会感染最终用户设备，目的是将它们纳入僵尸网络。任何被感染的设备都会开始与控制端通信，并且可以在攻击者的中央控制下执行自动化活动。

许多威胁行为者积极参与构建大型僵尸网络，其中最大的僵尸网络跨越数百万台计算机。通常，僵尸网络可以自行发展，例如使用受感染的设备发送垃圾邮件，从而感染更多机器。

僵尸网络所有者将它们用于大规模恶意活动，通常是分布式拒绝服务 (DDoS) 攻击。僵尸网络也可用于任何其他恶意机器人活动，例如垃圾邮件机器人或社交机器人。

Internet 上活跃的爬虫程序有很多种，包括合法的和恶意的。下面是几个常见的例子。

搜索引擎爬虫，也称为网络蜘蛛、索引擎蜘蛛或爬虫，通过跟踪超链接浏览网络，目的是检索和索引网络内容。蜘蛛下载 HTML 和其他资源，例如 CSS、JavaScript 和图像，并使用它们来处理站点内容。

如果您有大量网页，您可以将 robots.txt 文件放在您的网络服务器的根目录中，并向机器人提供说明，指定它们可以抓取您网站的哪些部分以及频率。

Scraper 是从网站读取数据的机器人，目的是离线保存数据并使其能够重复使用。这可能采取抓取网页的全部内容或抓取网页部分内容以获取特定数据的格式，例如电子商务网站上产品的名称和价格，博客上的文章。

网页抓取是一个灰色地带——在某些情况下，抓取是合法的，并且可能会得到网站所有者的许可。在其他情况下，scrape 开发者可能会违反网站使用条款，或者更糟糕的是——利用抓取来窃取敏感或受版权保护的内容。