
上QQ阅读APP看书,第一时间看更新
关于本书
Hadoop的发行版除了社区的Apache Hadoop外,Cloudera、Hortonworks、华为等公司都提供了自己的商业版本。因为企业通常使用的是Hadoop商业版本,所以本书实操的运行环境采用Cloudera的CDH。本书定位是大数据从入门到应用的简明系统教程,特色是理论联系实践、实战实用为主、内容全面系统、讲解深入浅出,是大数据技术爱好者入门的最佳图书。
本书分为18章(宋立桓老师撰写第1~12章、陈建平撰写第13~18章),分别从大数据概述、Cloudera Hadoop平台的安装部署、大数据Hadoop组件三方面进行介绍,内容包括HDFS分布式文件系统、MapReduce计算框架、资源管理框架YARN、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等知识,最后用两个综合实操案例把所有知识点串起来。
本书使用的操作环境是Hadoop商业发行版的Cloudera Express(Express是免费版本,企业版需付费)。全书秉承“实践为主、理论够用”的原则,将演示实验融入各个知识点讲解中。
本书另提供丰富的案例源文件和大数据工具软件下载,供读者亲自操作练习,在作者博客http://blog.51cto.com/lihuansong中有下载地址。
学习本书之前,希望大家应该具有如下基础:有一定计算机网络基础知识,熟悉常用Linux操作命令,对Java语言和数据库理论有基本的了解。