实战大数据:分布式大数据分析处理系统开发与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

当今时代,物联网、大数据、云计算、人工智能等热词铺天盖地地向人们袭来。其中,大数据技术已经广泛应用于金融、医疗、教育、电信以及电商等领域。

2020年,国家推出了“新基建”战略,将5G、大数据中心、人工智能和工业互联网列为新型基础设施建设的重点。在国家政策的引领下,各行各业都将大数据产业列为优先发展目标,大数据时代已经到来。

大数据是信息产业持续高速增长的新引擎,已成为提高企业核心竞争力的关键因素。大数据时代科学研究的方法手段发生了重大变革,对大数据的处理分析已经成为新一代信息技术融合应用的关键。各行各业对于大数据人才的需求呈现井喷式增长,高校大数据相关专业的建设也呈现这一态势。众多企事业单位都迫切需要具备理论基础和实践技能的大数据人才。相应地,对适合此类人才培养的大数据技术应用型图书的需求也非常迫切。

本书从大数据技术相关概念出发,系统介绍了大数据分析的流程和大数据分析处理系统的组成,详细讲解了大数据集群的搭建过程,并以大数据集群为基础深入剖析了多个离线数据分析和实时数据分析的实战项目案例,涵盖了生产生活中的多个大数据应用场景。本书理论结合实际,特别突出了实践特色,能够很好地满足高校大数据人才培养需求和大数据相关岗位工程师的技能提升需求。

全书共10章,第1章对大数据相关内容进行概述,第2章介绍了大数据分析的基本流程与工具,第3章介绍了分布式大数据分析处理系统,第4章介绍了构建大数据集群环境的方法和步骤,第5章介绍了如何构建基于LayUI的集群管理系统,第6章介绍了基于HBase的大数据离线分析系统,第7章介绍了基于Hive+Hadoop+Spark的大数据离线分析系统,第8章介绍了基于MySQL+Spark的大数据离线分析系统,第9章介绍了基于Redis+Kafka+Spark的大数据实时分析系统,第10章介绍了基于Flume+Kafka+Flink的大数据实时分析系统。

本书前4章作为理论体系,介绍了大数据分析系统的基本概念、基本原理、基本组成和构建方法。第5章用Java语言编写了一个集群管理系统。第6~8章介绍了三个不同应用场景下的大数据离线分析系统。第9、10章介绍了两个不同应用场景下的大数据实时分析系统。本书可以帮助读者建立对大数据技术概念的整体认知,通过丰富的实践案例帮助读者掌握主流大数据技术的实际应用,具有较强的实用性和指导性。

本书也可作为有一定大数据基础的读者的参考书,方便查阅相应技术、配置方式等。本书配有电子课件、源代码、视频和附带的集群,供读者学习使用。

在本书编写过程中,杨俊负责撰写第10章,乔钢柱负责撰写第3章,其余章节均为井超撰写。在本书写作过程中,特别感谢郭媛、刘甜甜、李沛洋、王晗、朱忠诺、张龙浩、王秀峰等人提供的协助。在此,也向机械工业出版社的谢辉、王斌等编辑表示衷心的感谢。

编者