更新时间:2020-06-30 17:15:59
封面
版权信息
内容简介
推荐序一
推荐序二
推荐序三
前言
关于本书
资源下载与技术支持
致谢
第1章 大数据概述
1.1 大数据时代的数据特点
1.2 大数据时代的发展趋势——数据将成为资产
1.3 大数据时代处理数据理念的改变
1.4 大数据时代的关键技术
1.5 大数据时代的典型应用案例
1.6 Hadoop概述和介绍
第2章 Cloudera大数据平台介绍
2.1 Cloudera简介
2.2 Cloudera的Hadoop发行版CDH简介
2.3 Cloudera Manager大数据管理平台介绍
2.4 Cloudera平台参考部署架构
第3章 Cloudera Manager及CDH离线安装部署
3.1 安装前的准备工作
3.2 Cloudera Manager及CDH安装
3.3 添加其他大数据组件
第4章 分布式文件系统HDFS
4.1 HDFS简介
4.2 HDFS体系结构
4.3 HDFS 2.0新特性
4.4 HDFS操作常用shell命令
4.5 Java编程操作HDFS实践
4.6 HDFS的参数配置和规划
4.7 使用Cloudera Manager启用HDFS HA
第5章 分布式计算框架MapReduce
5.1 MapReduce概述
5.2 MapReduce原理介绍
5.3 MapReduce编程——单词示例解析
5.4 MapReduce应用开发
第6章 资源管理调度框架YARN
6.1 YARN产生背景
6.2 YARN框架介绍
6.3 YARN工作原理
6.4 YARN框架和MapReduce1.0框架对比
6.5 CDH集群的YARN参数调整
第7章 数据仓库Hive
7.1 Hive简介
7.2 Hive体系架构和应用场景
7.3 Hive的数据模型
7.4 Hive实战操作
7.5 基于Hive的应用案例
第8章 数据迁移工具Sqoop
8.1 Sqoop概述
8.2 Sqoop工作原理
8.3 Sqoop版本和架构
8.4 Sqoop实战操作
第9章 分布式数据库HBase
9.1 HBase概述
9.2 HBase数据模型
9.3 HBase生态地位和系统架构
9.4 HBase运行机制
9.5 HBase操作实战
第10章 分布式协调服务ZooKeeper
10.1 ZooKeeper的特点
10.2 ZooKeeper的工作原理
10.3 ZooKeeper典型应用场景
第11章 准实时分析系统Impala
11.1 Impala概述
11.2 Impala组件构成
11.3 Impala系统架构
11.4 Impala的查询处理流程
11.5 Impala和Hive的关系和对比
11.6 Impala安装
11.7 Impala入门实战操作
第12章 日志采集工具Flume
12.1 Flume概述
12.2 Flume体系结构
12.3 Flume安装和集成
12.4 Flume操作实例介绍
第13章 分布式消息系统Kafka
13.1 Kafka架构设计
13.2 Kafka原理解析
13.3 Kafka安装和部署
13.4 Java操作Kafka消息处理实例
13.5 Kafka与HDFS的集成
第14章 大数据ETL工具Kettle
14.1 ETL原理
14.2 Kettle简介
14.3 Kettle完整案例实战
14.4 Kettle调度和命令
14.5 Kettle使用原则
第15章 大规模数据处理计算引擎Spark
15.1 Spark简介
15.2 Spark架构设计
15.3 Spark编程实例
15.4 Spark SQL实战
15.5 Spark Streaming实战
15.6 Spark MLlib实战
第16章 大数据全栈式开发语言Python
16.1 Python简介