您现在的位置是：芭奇站群管理系统 > 优化技巧 > -> google蜘蛛（googlebot）是怎么抓取网页的？

google蜘蛛（googlebot）是怎么抓取网页的？

时间：2010-05-05 23:39

　　想要了解google蜘蛛是怎么爬去收录网页的，我们需要首先来了解下google蜘蛛的起源。当google搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快，其实最主要的是后期google将服务器延伸到了很多城市,所以现在你能发现google的运算速率是超前的快.

　　服务器将采集的信息分类,整理.到庞大的数据库.其中有个数据库都是用来存网站域名的.域名只要被搜索引擎索引到,将自动存入此数据库.此数据库是1号蜘蛛的核心.其内部分为10个pr各等级的小数据库，虽说小数据库，但也是大的可怕.

　　10个等级的数据库其周期也不同.基本上以一个pr=4的网站来讲,1号蜘蛛爬行的概率也在7天一次.所以基本你也会发现收录有大的幅度也是在7天内的某一天.细心的站长会发现其实有时候7天还是蛮准的,但只针对pr=4.越是pr高其周期越是短,越是pr低周期越长,

　　当然说到这很多站长有这样的疑惑.会觉得蜘蛛有时天天收录他的站,这里对其收录的也就是接下来要说的2号蜘蛛,2号蜘蛛往往是在1号蜘蛛爬行过程中放出去的，主要针对于被1号蜘蛛爬过的网站的外部链接.

　　ps:既然都说是2号蜘蛛肯定其抓取力度要比1号小很多.

　　当然不只是有2号,还有3号蜘蛛,所谓3号也就,a站1号蜘蛛爬行到b站,b站的2号蜘蛛爬行到c站,目前google为了限制其无限的循环对于蜘蛛只分为这三个等级.并对其等级的抓取率有个很明确的标准,而且2号与3号蜘蛛有个抓取特点基本以时间的先后顺序进行抓取.

　　比方讲：a网站被1号蜘蛛爬行后的一篇文章最后时间为2008-6-1,那当a网站被从别的网站过来的2号蜘蛛给爬行,首先有可能会对其收录的是,最近发表的几篇文章如：2008-5-31等2008-5-30等文章将会进行第2次,第3次的访问之后再爬行2008-6-1以后的信息.如果你网站没有任何更新,它将对其近一个月内的更改内容进行2次爬行.

　　如果外部来的2号与3号蜘蛛越多,同一篇文章有可能会被爬上好几次.以下为google提供的官方数据<秘>

　　1号蜘蛛

　　基本抓取率在5%~10%

　　基于pr=0没有任何导入链接与提交时有可能被抓取的周期在6个月~12个月不等

　　基于pr=1没有任何导入链接与提交时有可能每次被抓取的周期在4个月~8个月不等

　　基于pr=2没有任何导入链接与提交时有可能被抓取的周期在2个月~4个月不等

　　基于pr=3没有任何导入链接与提交时有可能被抓取的周期在1个月~2个月不等

　　基于pr=4没有任何导入链接与提交时有可能被抓区的周期在1周~1个月不等

　　当然没有任何导入链接的网站无法做到pr=4

　　最高也只有pr=3

　　上述此数据只是google官方提供的一个基数.

　　意思也就是1号蜘蛛主动爬取你网站的周期数.

　　对于2号或者3号蛛爬取你的网站,也就根据你的导入链接而定.

　　所以你会发现你的网站有时天天在被更新.

　　2号蜘蛛

　　基本抓取率是2.5%~5%<基于1号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问>

　　3号蜘蛛

　　基本抓取率为1.25%~2.5%<基于1号蜘蛛与2号蜘蛛爬行后的数据记录进行再次采集,对于最后次被采集日期的前后进行再次访问>

　　google目前蜘蛛的等级分为三种

　　当然蜘蛛有不同的蜘蛛

　　这里单单只的是网页蜘蛛.因为我只对这个感兴趣.

与google蜘蛛（googlebot）是怎么抓取网页的？相关文章：
　　·SEO优化常见的六个误区你伤不起站群系统
　　·SEOer怎样去分析竞争对手站群工具
　　·PS制作PS制作数字笔画文字站群软件
　　·6步走成功拿下外贸订单什么是站群
　　·6条实用网店推广技巧流量飚升站群系统
　　·10技巧让你接单到手软！站群软件

　　本文标题：google蜘蛛（googlebot）是怎么抓取网页的？
　　本文地址：http://www.bakii.cn/seo/20100505851.html