实战Hadoop
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第3章 分久必合——MapReduce

MapReduce是一种处理海量数据的并行编程模型和计算框架,用于对大规模数据集(通常大于1TB)的并行计算。它最早是由Google提出的,并运行在Google的分布式文件系统GFS(Google File System)上,为服务于全球亿万用户的搜索引擎提供后台的网页索引处理,同时也使用于Google内部数以千计的应用程序和数据处理。Hadoop实现了Google的MapReduce编程模型和计算框架。但与Google不同的是,Hadoop是开源的,任何人都可以使用这个模型和框架进行并行编程。本章以Hadoop为平台,通过具体实例详细介绍MapReduce编程模型和方法,使读者能够快速地掌握MapReduce并行编程的思想和方法。