第2章 了解搜索引擎
2.1 这里的蜘蛛并非动物
2.1.1 蜘蛛的分类
搜索引擎蜘蛛(Spider)是一个很形象的名字。如果我们把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛。蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
按照现在网络上所有蜘蛛的作用及表现出来的特征,可以将其分为三类:批量型蜘蛛、增量型蜘蛛和垂直型蜘蛛。
1.批量型蜘蛛
批量型蜘蛛一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当蜘蛛的作业达到预先设置的目标就会停止。普通站长和SEOer使用的采集工具或程序,所派出的蜘蛛大多属于批量型蜘蛛,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或者时间达到设置限制后就会自动停止,这种蜘蛛就是很典型的批量型蜘蛛。
2.增量型蜘蛛
增量型蜘蛛也可以称为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型蜘蛛,但是站内搜索引擎除外,因为自有站内搜索引擎一般是不需要蜘蛛的。增量型蜘蛛和批量型蜘蛛不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓取完为止。
增量型蜘蛛不仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一段时间之后该页面会被删除。优秀的增量型蜘蛛需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、谷歌网页搜索等全文搜索引擎的蜘蛛,一般都是增量型蜘蛛。
3.垂直型蜘蛛
垂直型蜘蛛也可以称为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的蜘蛛不像增量型蜘蛛一样追求大而广的覆盖面,而是在增量型蜘蛛上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。