搜索引擎与爬虫
关于 Neevabot
Snowflake 宣布将于 2023 年 5 月收购专注于隐私的搜索初创公司 Neeva。
Snowflake 收购 Neeva 之后,Neeva 的搜索引擎爬虫 Neevabot 没有活跃的迹象。
Neevabot 是搜索引擎 neeva.com
的网络爬虫。
来自 Neevabot 的请求将用户代理设置为:
Mozilla/5.0 (compatible; Neevabot/1.0; +https://neeva.com/neevabot)
我们可以通过反向 DNS 查找主机名,示例如下:
$ host 100.26.127.17
17.127.26.100.in-addr.arpa domain name pointer 100-26-127-17.neevabot.com
Neevabot 遵守 robots.txt 协议。
例如,以下内容将允许 Neevabot 抓取除 /private/
下的页面之外的所有页面:
User-Agent: Neevabot
Allow: /
Disallow: /private/
Neevabot 还支持 robots.txt 文件中的抓取延迟指令。 它将值解释为连续请求开始之间的最短持续时间(以秒为单位)。
例如,假设您在 robots.txt 文件中指定了以下内容:
User-Agent: Neevabot
Crawl-delay: 5
Neevabot 会将每天分成 5 秒的时间间隔,并在每个时间间隔内最多向您的域发出一个请求。
如果没有针对 Neevabot 的规则,但有针对 Googlebot 的规则,则 Neevabot 将遵循 Googlebot 指令。
例如,Neevabot 将使用以下 robots.txt 获取除 /private/
下的页面之外的所有页面:
User-Agent: *
Disallow: /
User-Agent: Googlebot
Allow: /
Disallow: /private/