oBot 是 IBM Germany Research & Development GmbH 内容安全部门的网络爬行机器人。IBM 使用多台计算机来抓取网页,并使用一个大型计算机集群来对这些页面的内容进行分类。
此分析的结果是一个紧凑的 webfilter 数据库,IBM 的客户可以在多种内容过滤产品中使用该数据库,包括面向 OEM 合作伙伴的 SDK。使用多种算法,IBM 可以为网页分配超过 65 个不同的类别
(https://exchange.xforce.ibmcloud.com/faq#url_categories_list
)。
爬取过程和后面的分析都是完全自动化的过程。oBot 使用不同的参数来确定其访问间隔以及对网页进行分类所需的数据量。从您的主页开始,oBot 从您的网络服务器加载 html 和其他文本文档、图像、动画和二进制文件以分析内容。在访问期间,oBot 会遵守您的 robots.txt 中的条目,并试图保持其占用空间较小。相同主机的链接不是并行处理的,而是按顺序处理的,中间几乎没有停顿。oBot 将链接存储在数据库中,并在下次访问时使用它们。如果您的 URL 在此期间发生了变化,这可能会导致您的网络服务器上出现一些“404 -page not found”错误。