Hadoop大数据实战权威指南(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2版前言

本书第1版于2017年7月面世,到目前已经印刷多次,受到了广大读者的欢迎和好评,作者为此备受鼓舞。随着时间的推移,大数据技术又有了新的变化,例如,Hadoop由写作第1版时的Hadoop 2.6升级到Hadoop 3.1,其官方文档声称新版Hadoop的速度比同期Spark快10倍;其他组件也在不断更新和升级。作为大数据实战权威指南,本书当然要紧跟技术发展,及时反映新平台、新技术、新方法和新特性。因此,我们撰写了《Hadoop大数据实战权威指南(第2版)》。

第2版的写作架构上与第1版保持一致,仍然分为3篇、12章,但是各章内容进行了提升和改写,对软件平台和主要组件都进行了升级,具体变化如下:

(1)采用Hadoop 3.1。在实践中我们也感受到,Hadoop 3.1在速度、稳定性、易用性等方面都好于早期的版本。

(2)JDK由原来的1.7.0_71升级到了1.8.0_171。从业界反馈的信息看,1.8.0版本的JDK是很受开发人员欢迎的。

(3)MySQL由原来的5.7.13升级到8.0.11,其性能得到了显著的提高。

(4)Hive从原来的2.1.0升级到3.1.0。

(5)HBase继续采用1.2.4版。我们观点是,必要的升级是有效的,但是,升级软件组件也面临适配性问题,在生产实际中更是需要慎重对待。从官方文献及实践来看,Hadoop与HBase存在很强的适配性问题,不同版本的Hadoop需要对应不同版本的HBase。研究证明,Hadoop 3.1与HBase 1.2.4能够很好地配合使用。

(6)Spark由原来的2.0升级到2.4。与之配套的开发平台IDEA也由原来的2016.3升级到2018.3.4。

特别需要说明的是,在上述升级中,为读者展示了大量的新方法和新变化,曾踩过了很多的坑,解决了不少技术问题。这些这对学习者、项目开发者都有很好的参考作用。

大数据正处于方兴未艾的发展时期,我们将努力为读者奉献精品力作。由于作者水平有限,错误和疏漏在所难免,恳请广大读者提出宝贵的意见和建议。作者的电子邮箱是:djhuang@csu.edu.cn。

黄东军
2019年8月21日于长沙