百度蜘蛛抓取规则 _抓取

相信大家对百度蜘蛛这个词都不陌生吧，记得我在第一次听到百度蜘蛛这个词的时候，是在11年初，那时候百度蜘蛛并没有如今的人性化，那时候的百度蜘蛛抓取释放几乎么有任何规则。但对现在的百度蜘蛛而言，那时候等于是个幼蜘，现在的百度蜘蛛已经兵强马壮，下面我们来了解一下百度蜘蛛的规则吧。

文章插图
百度蜘蛛是什么百度蜘蛛是百度搜索引擎的一个自动程序，它通过网络来搜集网络上网站的内容，其中包括：文字、图片、视频等，然后进行分析整理出数据库，最终能够在百度搜索引擎中展现您的文字、图片、视频等，之所以取名叫做百度蜘蛛，是因为此程序有类似于蜘蛛的功能，补下天罗地网，能够搜集到许多网络上的信息。
常见的百度蜘蛛IP当你网站有人访问或者有机器访问，那就一定会出现一个IP，通常情况下，我们的服务器都会记录这些IP信息，下面是网友提供的常见的百度蜘蛛IP 。
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了，或被者降权。
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访，准备抓取你东西。
121.14.89.*这个ip段作为度过新站考察期。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
【百度蜘蛛抓取规则】125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分，是新上线站较多，还有使用过站长工具，或SEO综合检测造成的。
220.181.108.95这个是百度抓取首页的专用IP，如是220.181.108段的话，基本来说你的网站会天天隔夜快照，绝对错不了的，我保证。
220.181.108.92 同上98%抓取首页，可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
123.125.71.106 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或采集文章。
220.181.108.91属于综合的，主要抓取首页和内页或其他，属于权重IP 段，爬过的文章或首页基本24小时放出来。
220.181.108.75重点抓取更新文章的内页达到90%，8%抓取首页，2%其他。权重IP 段，爬过的文章或首页基本24小时放出来。
220.181.108.86专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
123.125.71.95 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或采集文章。
123.125.71.97 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或采集文章。
220.181.108.89专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
220.181.108.94专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
220.181.108.97专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
220.181.108.80专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
220.181.108.77 专用抓首页IP 权重段，一般返回代码是304 0 0 代表未更新。
123.125.71.117 抓取内页收录的，权重较低，爬过此段的内页文章不会很快放出来，因不是原创或采集文章。
220.181.108.83专用抓取首页IP 权重段，一般返回代码是304 0 0 代表未更新。
百度蜘蛛抓取规则前面说到，百度蜘蛛的人性化，那么百度蜘蛛就一定有自己的抓取规章，当遇到一些不适合抓取或空白页面，那么百度搜索引擎将会直接取消抓取，下面来看看百度是如何抓取我们的页面的。
1、访问robots当蜘蛛来到你的网站第一眼不看别的，只看robots文件，如果你的robots文件禁止了百度蜘蛛抓取，那么百度蜘蛛会直接离开你的网站，不会对你网站进行抓取。当然如果你的robos文件有网站地图，那么搜索引擎会直接通过robots来抓取你的网站地图文件，更便捷的让蜘蛛知道你的所有需要抓取收录的页面。
2、访问首页如果你的robots文件没有禁止你网站或者你没有robots文件，那么搜索引擎会第一时间访问你的主页，同时确定你的首选域，对于你网站的url分析。分析完以后，会开始对你网站的首页进行下载抓取，如遇到首页空白或者首页内容不适合搜索引擎的抓取（如：视频、flash、下拉内容过多等），那么很难以让搜索引擎抓取收录。
3、链接引导访问百度蜘蛛可以更具你首页的链接来对下一个页面进行抓取，比如首页出现导航、文章等，那么蜘蛛就可以根据这些超链接进行抓取，这就是我们的文章需要设置内链的原因。同时百度蜘蛛也可以根据你网站出现的外链来进行抓取站外的网站，这也是我们交换友情链接的主要原因之一。
百度蜘蛛抓取和收录的关系很多人抱怨自己的网站几个月没有收录或者是收录量太少，其实大部分的原因都是因为抓取问题，一般的情况下，只要一个网站具备内容，都会有被收录的可能。那么什么样的页面蜘蛛才不会抓取或收录呢。
1、打不开的页面如果一个页面出现打不开的现象，用户无法访问，百度蜘蛛自然也无法抓取，当百度蜘蛛通过链接来到你的站点，发现无法打开，那自然不会被抓取更别说收录了。
2、空白的页面空白的页面并不是说404错误页面，而是一些没有内容的页面，这里太多SEOER没有关注到这些空白页面，这种空白页面包括（登陆注册页、无内容的列表页、联系我们、关于我们等）。
3、重复的页面在百度蜘蛛抓取后，百度蜘蛛会将你的页面进行网络对比，当对比到你的内容与网络上的内容出现的重复读过高，那么搜索引擎将会判断，你的内容为抄袭或转载，这种页面将会列入星火计划之中。
4、被禁止的页面我们经常会看到一个网站出现nofollow标签，其标签的主要作用是禁止蜘蛛爬取此超链接，如果你的页面被nofollow禁止了，那么搜索引擎将很难抓取到被你禁止的页面。

相关阅读
屏蔽百度蜘蛛的方法
百度蜘蛛爬行与抓取的原理
网站蜘蛛日志分析