第2章了解搜索引擎

2.1 这里的蜘蛛并非动物

2.1.1 蜘蛛的分类

搜索引擎蜘蛛（Spider）是一个很形象的名字。如果我们把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛。蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

按照现在网络上所有蜘蛛的作用及表现出来的特征，可以将其分为三类：批量型蜘蛛、增量型蜘蛛和垂直型蜘蛛。

1.批量型蜘蛛

批量型蜘蛛一般具有明显的抓取范围和目标，设置抓取时间的限制、抓取数据量的限制，或抓取固定范围内页面的限制等。当蜘蛛的作业达到预先设置的目标就会停止。普通站长和SEOer使用的采集工具或程序，所派出的蜘蛛大多属于批量型蜘蛛，一般只抓取固定网站的固定内容，或者设置对某一资源的固定目标数据量，当抓取的数据或者时间达到设置限制后就会自动停止，这种蜘蛛就是很典型的批量型蜘蛛。

2.增量型蜘蛛

增量型蜘蛛也可以称为通用爬虫。一般可以称为搜索引擎的网站或程序，使用的都是增量型蜘蛛，但是站内搜索引擎除外，因为自有站内搜索引擎一般是不需要蜘蛛的。增量型蜘蛛和批量型蜘蛛不同，没有固定目标、范围和时间限制，一般会无休止地抓取下去，直到把全网的数据抓取完为止。

增量型蜘蛛不仅抓取尽可能全的页面，还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的，单个网页上的内容可能会随着时间的变化不断更新，甚至在一段时间之后该页面会被删除。优秀的增量型蜘蛛需要及时发现这种变化，并反映给搜索引擎后续的处理系统，对该网页进行重新处理。当下百度、谷歌网页搜索等全文搜索引擎的蜘蛛，一般都是增量型蜘蛛。

3.垂直型蜘蛛

垂直型蜘蛛也可以称为聚焦爬虫，只对特定主题、特定内容或特定行业的网页进行抓取，一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的蜘蛛不像增量型蜘蛛一样追求大而广的覆盖面，而是在增量型蜘蛛上增加一个抓取网页的限制，根据需求抓取含有目标内容的网页，不符合要求的网页会直接被放弃抓取。

第2章 了解搜索引擎

2.1 这里的蜘蛛并非动物

2.1.1 蜘蛛的分类

第2章了解搜索引擎