搜索引擎与爬虫

什么是baiduspider

什么是baiduspider

管理网站搜索引擎时要考虑的一个重要因素是网站爬虫。搜索机器人或 "蜘蛛 "定期访问你的网页,并根据他们的发现,决定如何在搜索结果中对你的内容进行排名。

尽管每个搜索引擎都会自动向你的网页发送蜘蛛,但你仍然可以在一定程度上控制它们如何与你的网站互动。因此,为了对你的搜索引擎优化产生积极影响,正确管理蜘蛛设置是很重要的。

当在中国运行一个网站,或使用中文时,你将与百度蜘蛛机器人打交道。虽然与谷歌蜘蛛相似,但重要的是要了解百度蜘蛛机器人的差异以及如何阻止它。以及如何利用它的方式来提高你的网站性能。

什么是百度蜘蛛

Baiduspider是百度使用的抓取蜘蛛的官方名称,百度是中国最重要的搜索引擎。

正如你可能知道的,谷歌在中国不工作。因此,在瞄准中国市场时,需要这个百度机器人。

百度蜘蛛如何工作的

与其他搜索引擎爬虫一样,Baiduspider是一个自动软件,它定期检查你的网站内容,收集信息,然后用于在搜索引擎数据库中索引你的页面。

每次Baiduspider访问你的网页时,它都会寻找特定的信息,如你的网页结构、内容质量、内容更新、关键词等等。抓取过程分为两个步骤:

  • 蜘蛛抓取页面并将其放入存储器;

  • 它在你的页面上创建一个链接列表,以便以后检查。

通过收集的数据,百度将对你的内容进行排名。如果Baiduspider认为一个网页有价值,它就会被放在搜索结果的顶部,如果内容不符合百度的准则,它就会被降级。

很可能,你既不希望,也不需要,Baiduspider访问你的所有网页。因此,你既要了解如何阻止Baiduspider,又要了解如何让它喜欢你的内容。

许多网站管理员想知道Baiduspider是否只抓取中国的网站,或者它是否也抓取中国以外的网站。

要回答这个问题,请记住,Baiduspider机器人的工作方式与其他访问你网站的人完全一样。因此,如果中国的用户可以访问你的网站,百度机器人也可以。当然,当百度抓取一个页面渲染时间或延迟较高的海外网站时,整体排名肯定会很低,而且在中国也看不到你。出于这个原因,如果你的目标是中国市场,你必须将你的网站托管在中国。

百度蜘蛛 User-agent 列表

为了收集信息,Baiduspider机器人使用不同的代理。下面收集了百度蜘蛛不同的 User-agent:

百度产品名称 User-agent
百度搜索引擎爬虫 Baiduspider
百度图片搜索引擎爬虫 Baiduspider-image
百度视频搜索引擎爬虫 Baiduspider-video
百度新闻搜索引擎爬虫 Baiduspider-news
百度书签搜索引擎爬虫 Baiduspider-favo
百度商业搜索引擎爬虫 Baiduspider-ads
百度联盟搜索引擎爬虫 Baiduspider-cpro

我应该允许Baiduspider抓取我的网站吗

如果你的目标是中国市场,你绝对必须让Baiduspider抓取你的网站。此外,你需要了解百度制定的基本准则,以确保你的网页被正确索引。

然而,如果你对中国市场不感兴趣,你必须阻止Baiduspider机器人抓取你的网站,以节省你希望提供给真实用户的带宽。

如何屏蔽百度蜘蛛

屏蔽Baiduspider的唯一原因是,如果你对瞄准中国市场不感兴趣。你将避免浪费宝贵的带宽,这些带宽可以被你的访问者使用,也不会无谓地减慢你的网站。

也可能发生的是,你不希望某些页面被搜索引擎获取和索引,如作者页、标签等。在这种情况下,你将需要阻止Baiduspider机器人进入这些特定的页面。

为了防止Baiduspider抓取你的网站,你需要创建一个Robots.txt文件。你可以用这个文件在整个网站上阻止Baiduspider,或者只阻止选定的页面。

下面是你可以使用的 robots.txt 的一些例子:

防止百度抓取你整个网站:

User-agent: Baiduspider

Disallow: /

禁止百度爬虫抓取你的视频:

User-agent: Baiduspider-video

Disallow: /

禁止百度爬虫抓取你的图片:

User-agent: Baiduspider-image

Disallow: /

一些用户不喜欢的是,尽管已经添加了robots.txt文件,但百度可能会越过它,继续抓取网站。其他用户报告说,百度在抓取他们的网站时可能相当激进,并且遇到了百度机器人过于频繁和密集地访问他们的网站的问题。

如果是这种情况,而且你的目标客户不是中国人,你必须阻止Baiduspider,防止它的抓取对你的网站速度表现产生负面影响。

除了添加robots.txt之外,解决这个问题的另一个方法是尝试在你的服务器域上禁止百度蜘蛛的IP。这个操作可能需要一些时间,因为搜索引擎使用了多个Baiduspider IP:

220.181.32.11 220.181.32.16 220.181.32.22 116.179.37.99 116.179.37.113 116.179.37.248 116.179.37.244 220.181.7.132 220.181.7.131 220.181.7.127 220.181.7.126 61.135.168.14 116.179.32.82 61.135.168.39

如果你不确定是不是百度蜘蛛的IP地址,可以到这里查看更多百度蜘蛛ip

除此之外,如果你想阻止百度显示你的网页的快照,你可以使用以下元标签:<meta name="Baiduspider" content="noarchive">,如果你不希望特定的页面被索引,就使用经典的noindex元标签:<meta name="robots" content="noindex" />

总结

了解百度如何抓取你的网站,在决定哪些网页要被收录,哪些网页不要被收录时,是非常重要的。