大数据技术原理与应用(第2版)
上QQ阅读APP看书,第一时间看更新

2.1 概述

本节简要介绍Hadoop的起源、发展历史、特性、应用现状和版本演变。

2.1.1 Hadoop简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop 是基于 Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。HDFS是针对谷歌文件系统(Google File System,GFS)的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。MapReduce是针对谷歌 MapReduce 的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于廉价计算机集群上,完成海量数据的存储与计算。

Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕 Hadoop 提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop。

2.1.2 Hadoop的发展简史

Hadoop这个名称朗朗上口,至于为什么要取这样一个名字,其实并没有深奥的道理,只是追求名称简短、容易发音和记忆而已。很显然,小孩子是这方面的高手,大名鼎鼎的“Google”就是由小孩子给取名的,Hadoop同样如此,它是小孩子给“一头吃饱了的棕黄色大象”取的名字(见图2-1)。Hadoop后来的很多子项目和模块的命名方式都沿用了这种风格,如Pig和Hive等。

图2-1 Hadoop的标志

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,该搜索引擎框架无法扩展到拥有数十亿网页的网络。而就在一年以后的2003 年,谷歌公司发布了分布式文件系统 GFS 方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统(Nutch Distributed File System,NDFS),也就是HDFS的前身。

2004 年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了 MapReduce 分布式编程思想。2005年,Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时Doug Cutting加盟雅虎。2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。2008年4月,Hadoop打破世界纪录,成为最快排序1 TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209s。在2009年5月,Hadoop更是把1 TB数据排序时间缩短到62 s。Hadoop从此声名大噪,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准。

2.1.3 Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。

● 高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。

● 高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。

● 高可扩展性。Hadoop 的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上。

● 高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。

● 成本低。Hadoop 采用廉价的计算机集群,成本比较低,普通用户也很容易用自己的 PC搭建Hadoop运行环境。

● 运行在Linux平台上。Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。

● 支持多种编程语言。Hadoop上的应用程序也可以使用其他语言编写,如C++。

2.1.4 Hadoop的应用现状

Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地。

2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4 000个处理器和1.5 PB容量的Hadoop集群系统。此后,包括卡耐基梅隆大学、加州大学伯克利分校、康奈尔大学和马萨诸塞大学阿默斯特分校、斯坦福大学、华盛顿大学、密歇根大学、普渡大学等12所大学加入该集群系统的研究,推动了开放平台下的开放源码发布。目前,雅虎拥有全球最大的 Hadoop 集群,有大约25 000个节点,主要用于支持广告系统与网页搜索。

Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中,约有3 000万用户至少每天更新一次自己的状态;用户每月总共上传 10 亿余张照片、1 000 万个视频,每周共享 10亿条内容,包括日志、链接、新闻、微博等。因此,Facebook需要存储和处理的数据量同样是非常巨大的,每天新增加4 TB压缩后的数据,扫描135 TB大小的数据,在集群上执行Hive任务超过7 500次,每小时需要进行8万次计算。很显然,对于Facebook而言,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。

国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大。据悉,淘宝Hadoop集群拥有2 860个节点,清一色基于英特尔处理器的X86服务器,其总存储容量达到50 PB,实际使用容量超过40PB,日均作业数高达15万,服务于阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle、MySQL)备份、系统日志以及爬虫数据,每天在Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推荐系统、排行榜等。

作为全球最大的中文搜索引擎公司,百度对海量数据的存储和处理要求是非常高的。因此,百度选择了Hadoop,主要用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。百度目前拥有3个Hadoop集群,计算机节点数量在700个左右,并且规模还在不断增加中,每天运行的MapReduce任务在3 000个左右,处理数据约120 TB/天。

华为是 Hadoop 的使用者,也是 Hadoop 技术的重要推动者。由雅虎成立的 Hadoop 公司Hortonworks 曾经发布一份报告,用来说明各个公司对 Hadoop 发展的贡献。其中,华为公司在Hadoop重要贡献公司名单内,排在谷歌和思科公司的前面,说明华为公司也在积极参与开源社区贡献。

2.1.5 Hadoop的版本

Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含0.20.x、0.21.x和0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN(Yet Another Resource Negotiator)两个系统。

除了免费开源的Apache Hadoop以外,还有一些商业公司推出Hadoop的发行版。2008年,Cloudera成为第一个Hadoop商业化公司,并在2009年推出第一个Hadoop发行版。此后,很多大公司也加入了做 Hadoop产品化的行列,比如 MapR、Hortonworks、星环等。一般而言,商业化公司推出的Hadoop发行版也是以Apache Hadoop为基础,但是前者比后者具有更好的易用性、更多的功能以及更高的性能。