大数据技术原理与应用(第2版)
上QQ阅读APP看书,第一时间看更新

前言(第2版)

《大数据技术原理与应用》第1版于2015年8月出版,虽然距今仅有一年左右的时间,但是在过去一年里,大数据技术发展迅猛,诸如Spark等新技术迅速崛起,开始改变Hadoop一枝独秀的市场格局。因此,我们及时对第1版内容进行了补充和修订,以适应大数据技术的快速发展,保持本书的先进性和实用性。

本书依然沿用第1版的篇章设计,共分四大部分,包括大数据基础篇、大数据存储与管理篇、大数据处理与分析篇和大数据应用篇。在大数据基础篇中,第 1章介绍大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系;第2章介绍大数据处理架构Hadoop,并补充介绍了Hadoop版本演化。在大数据存储与管理篇中,第3章介绍了分布式文件系统HDFS,在编程实践部分根据最新版本的API进行了修订;第4章介绍了分布式数据库HBase,在编程实践部分根据最新版本的API进行了修订;第5章介绍了NoSQL数据库;第6章介绍了云数据库。在大数据处理与分析篇中,首先在第 7 章介绍了分布式并行编程模型MapReduce,然后在新增的第8章中对Hadoop进行了再探讨,介绍了Hadoop的发展演化和一些新特性,并在新增的第9章中介绍了当前比较热门的、基于内存的分布式计算框架Spark,在第10章和第11章分别介绍了两种典型的大数据分析技术——流计算和图计算,最后在第12章简单介绍了可视化技术。在大数据应用篇中,用3章(第13章~第15章)内容介绍了大数据在互联网、生物医学领域和其他行业的典型应用。

本书第1版于2015年8月出版后,厦门大学数据库实验室建设了与本书配套的“中国高校大数据课程公共服务平台”(http://dblab.xmu.edu.cn/post/bigdatateaching- platform/),为教师教学和学生学习大数据课程提供PPT讲义、学习指南、备课指南、上机习题、实验指南、技术资料、授课视频等全方位、一站式免费服务,并提供面向全国高校的大数据实验平台建设方案和大数据课程师资培训服务。

本书是厦门大学计算机科学系大数据课程的配套教材,根据近几年的教学实践,建议安排32学时理论课,16个教学周,每周2学时。每章的具体学时分配如下:第1、3、4、5、6、8、10、11、12、13章每章安排2学时;第2、7、9章每章安排4学时;第14、15章这两章内容由学生自学完成。已经建设大数据教学实验室的高校,可以增加16学时上机实践课,分成4次上机,每次连续4节课,“中国高校大数据课程公共服务平台”的“教师服务站”为本书提供了配套的上机实验指南。

本书第1版出版后,笔者收到了大量的读者来信,对本书提出了许多宝贵的改进意见和建议,这里表示衷心的感谢。同时,笔者举办了多期全国高校大数据课程教师培训交流班和全国高校大数据教学论坛,开展了全国高校大数据公开课巡讲计划与辅助国内高校开设大数据课程公益项目,建立了大数据课程教师交流群,与全国高校大数据课程教师进行了广泛的接触、沟通和交流,更好地了解了当前国内高校大数据课程教学发展需求和前进方向,这也为本书第2版撰写奠定了很好的基础。这里向参与交流的全国高校大数据课程教师表示衷心的感谢!

本书由林子雨执笔。在撰写第2版过程中,厦门大学计算机科学系硕士研究生蔡珉星、李雨倩、谢荣东、罗道文、邓少军、阮榕城、薛倩、魏亮、曾冠华等做了大量辅助性工作,在此,向他们的辛勤工作表示衷心的感谢。

大数据技术发展日新月异,在今后的工作中,笔者以及厦门大学数据库实验室会持续跟踪大数据技术发展趋势,把大数据最新技术和本书相关补充资料及时发布到“中国高校大数据课程公共服务平台”,方便本书读者通过网络及时免费获取相关信息。由于笔者能力有限,书中难免存在不足之处,望广大读者不吝赐教。

林子雨

厦门大学计算机科学系数据库实验室

2016年9月