2.1　互联网数据收集_大数据架构商业之路：从业务需求到技术方案-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

icon2

2.1　互联网数据收集

如今的互联网是一个神奇的世界，充满了各种各样的信息。通过像Google、百度、Bing这种世界级的Web搜索引擎，你几乎可以找到任何你想要的答案。让人觉得不可思议的是，搜索引擎好像能够触达信息世界的每一个角落，发现并收集相关的内容。那么，它们是凭借什么样的神器来达到这个目标的呢？这就是网络爬虫（Web Crawler）。网络爬虫又可称为网络蜘蛛（Web Spider）、网络机器人等，即按照一定的规则，自动地抓取互联网信息的一种程序或脚本。可以认为现代搜索引擎的祖先是1990年由蒙特利尔大学的学生Alan Emtage的发明的Archie。Archie的工作原理与现在的搜索引擎很接近，它依靠脚本程序自动搜索网上的文件，并对有关信息进行索引，之后使用者就可以采用一定的表达式进行查询。受Archie的启发，美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具，并增加了对网页的检索支持。这些搜索工具都离不开收集文件内容的重要模块，在工作的时候它就像蜘蛛一样在网络间爬来爬去，因此人们称为“蜘蛛”程序。也可认为它们是爬虫程序最早的实现。在互联网时代，“蜘蛛”程序进一步演变成为人们俗称的爬虫模块。正是利用了爬虫的强大功能，日益庞大的互联网内容才能突破网络的黑暗状态，变成一个可知的世界。在不远的未来，互联网信息的抓取、挖掘和再处理，将成为更多人的需求，而满足这种需求的，就是各种各样的爬虫和与之相关的信息处理工具了。现在网络上流行的信息采集工具、网站聚合工具，都将是未来新一代爬虫的先驱，甚至已经具备了其特点。另外，随着Web 2.0的流行，如何抓取动态页面也成为搜索引擎爬虫需要解决的热点。

2.1 互联网数据收集

2.1　互联网数据收集