大数据分析与挖掘
上QQ阅读APP看书,第一时间看更新

前言

随着互联网+、物联网的广泛应用,以及生命科学、工业4.0等领域的快速发展,在越来越多的应用中数据量将达到Terabyte、Petabyte甚至更高量级。如何快速、准确、实时、方便地从庞大的、分散的数据中获取所需要的知识,是当前科技领域面临的重要问题,也是科学技术及产业领域研究的前沿课题之一。面对这一挑战,数据分析与挖掘技术显示出强大的生命力。数据挖掘使数据处理技术进入了一个更高级的阶段,能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地决策、预测各种问题。麻省理工学院的《科技评论》提出,数据挖掘技术是对人类未来产生重大影响的十大新兴技术之一。数据挖掘也必将成为支撑大数据分析的重要及核心技术。

2018年3月,教育部公布在283所高校设立数据科学与大数据技术专业。数据科学与大数据技术专业旨在培养具有大数据思维、运用大数据思维及分析应用技术的高层次大数据人才。本教材编写的目的是培养学生掌握大数据分析与挖掘技术,提升学生解决实际问题的能力。

“大数据分析与挖掘”是面向本科高年级的课程。这门课程覆盖的知识面较广,和其他课程的衔接也比较密切,同时,这门课程又具有其明显的应用特点。

本教材的编写符合“大数据分析与挖掘”课程自身的特点。从“厚基础、强实践、严过程、求创新”的人才培养目标出发,能够促进学生对于相关专业基础课程的掌握和提升,如数据库原理、数据结构、算法原理,以及相关的数学基础课程等,使得学生能够将所学的基础知识用于前沿的研究领域,加深对基础课程的理解和掌握。另外,本教材突出大数据计算框架下的实践特点,深入浅出地讲述数据挖掘的基本算法,要求学生进行算法的实践,增强实践动手能力。同时,引导学生找出算法存在的问题,勇于对其进行改进,从而促进学生创新能力的培养。

本教材针对以往在课程教学过程中发现的问题,确立教材的主要编写目标是大数据分析与挖掘的入门级教材。通过简单易学的例子,让学生快速入门,并在动手实践的过程中培养学生对大数据分析与挖掘技术的兴趣。通过教材的介绍,努力弥合理论与实践之间的缝隙,夯实理论基础,强调基本概念与算法的学习。教材在内容组织上,注重提高学生的实践能力。通过单机环境Python Sklearn工具的实践,体验在“小数据”上如何“算”的过程,理解算法的基本原理以及各个参数设置对算法的影响;通过Spark机器学习库的实践,体验如何在“大数据”计算平台上对大数据集合也能“算得快”。

本教材的教学计划为50学时。通过课程的学习,学生能够掌握大数据分析与挖掘的基础理论,能够运用Sklearn数据挖掘软件包从事基本的数据分析与挖掘任务,能够利用Spark机器学习库在大数据集合上进行分析与挖掘工作,并为学生从事大数据分析与挖掘领域的更深层次的工作打下坚实的基础。

最后,感谢李克果、李东升、李天禹和范佳欢同学在本书文献整理和示例代码撰写方面所提供的大量帮助;感谢教育部高等学校计算机类专业教指委-华为ICT产学合作项目对本教材出版提供的帮助;感谢读者选择本教材,并欢迎读者对本教材内容提出批评和改进建议。

编者
2018年5月