上QQ阅读APP看书,第一时间看更新
2.1 互联网数据收集
如今的互联网是一个神奇的世界,充满了各种各样的信息。通过像Google、百度、Bing这种世界级的Web搜索引擎,你几乎可以找到任何你想要的答案。让人觉得不可思议的是,搜索引擎好像能够触达信息世界的每一个角落,发现并收集相关的内容。那么,它们是凭借什么样的神器来达到这个目标的呢?这就是网络爬虫(Web Crawler)。网络爬虫又可称为网络蜘蛛(Web Spider)、网络机器人等,即按照一定的规则,自动地抓取互联网信息的一种程序或脚本。可以认为现代搜索引擎的祖先是1990年由蒙特利尔大学的学生Alan Emtage的发明的Archie。Archie的工作原理与现在的搜索引擎很接近,它依靠脚本程序自动搜索网上的文件,并对有关信息进行索引,之后使用者就可以采用一定的表达式进行查询。受Archie的启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,并增加了对网页的检索支持。这些搜索工具都离不开收集文件内容的重要模块,在工作的时候它就像蜘蛛一样在网络间爬来爬去,因此人们称为“蜘蛛”程序。也可认为它们是爬虫程序最早的实现。在互联网时代,“蜘蛛”程序进一步演变成为人们俗称的爬虫模块。正是利用了爬虫的强大功能,日益庞大的互联网内容才能突破网络的黑暗状态,变成一个可知的世界。在不远的未来,互联网信息的抓取、挖掘和再处理,将成为更多人的需求,而满足这种需求的,就是各种各样的爬虫和与之相关的信息处理工具了。现在网络上流行的信息采集工具、网站聚合工具,都将是未来新一代爬虫的先驱,甚至已经具备了其特点。另外,随着Web 2.0的流行,如何抓取动态页面也成为搜索引擎爬虫需要解决的热点。