前言
Spark在英文中是火花的意思,创作者希望能够像火花一样照亮大数据时代的数据挖掘。大数据时代是一个充满机会和挑战的时代,就像一座未经开发的金山,任何人都有资格去获得其中的宝藏,仅仅需要的就是有一把得心应手的工具——ML。
本书目的
本书的主要目的是介绍如何使用ML进行数据挖掘。ML是Spark 3.0中最核心的部分之一,是Spark 3.0机器学习库。经过无数创造者卓越的工作,ML已经成为一个优雅的、可以运行在分布式集群上的数据挖掘工具。
ML充分利用了现有数据挖掘的技术与手段,将隐藏在数据中不为人知但又包含价值的信息提取出来,并通过相应的计算机程序,无须人工干预,自动在系统中进行计算,以发现其中的规律。
通常,数据挖掘的难点和重点在于两个方面,分别是算法的学习和程序的设计。有的还需要读者有些相应的背景知识,例如统计学、人工智能、网络技术等。本书在写作上以工程实践为主,重点介绍其与数据挖掘密切相关的算法与概念,并且使用浅显易懂的语言将其中涉及的算法进行概括性描述,从而帮助读者更好地了解和掌握数据挖掘的原理。
笔者在写作本书的时候有一个基本原则—这本书应该体现工程实践与理论之间的平衡。数据挖掘的目的是为了解决现实中的问题,并提供一个结果,而不是去讨论比较哪个算法更高深、看起来更能吓唬人。本书对算法的基本理论和算法做了描述,如果有读者觉得有点难,可以找相应的教材深入学习一下,相信大多数读者都能理解相关的内容。
本书内容
本书主要介绍Spark 3.0的ML数据挖掘算法,内容分成三部分:第一部分(第1~4章)是ML、DataFrame的基本概念和用法,以及管道技术和一些数据挖掘的基本数理统计知识;第二部分(第5~12章)是ML算法的应用,包括协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等;第三部分(第13章)通过一个经典的鸢尾花分析实例,向读者演示如何使用ML来进行数据挖掘工作。
本书特点
·本书尽量避免纯粹的理论知识介绍和高深技术研讨,完全从应用实践出发,用最简单、典型的示例引申出核心知识,最后指出通往“高精尖”进一步深入学习的道路。
·本书全面介绍ML涉及的数据挖掘的基本结构和上层程序设计,借此能够系统地看到ML的全貌,使读者在学习过程中不至于迷失方向。
·本书在写作上浅显易懂,没有深奥的数学知识,采用较为简洁的形式描述应用的理论知识,让读者轻松愉悦地掌握相关内容。
·本书旨在引导读者进行更多技术上的创新,每章都会用示例描述的形式帮助读者更好地学习内容。
·本书代码遵循重构原理,避免代码污染,引导读者写出优秀、简洁、可维护的代码。
·本书所有数据格式均为DataFrame类型,并且使用管道技术执行机器学习算法。
源码、PPT课件、思维导图、数据集与开发环境下载
本书配套源码、PPT课件、思维导图、数据集与开发环境,需要使用微信扫描右侧二维码下载,可按提示把链接转发到自己的邮箱中下载。如果有疑问,请发邮件至booksaga@163.com,邮件主题为“Spark 3.0大数据分析与挖掘:基于机器学习”。
本书读者
·Spark大数据分析与挖掘初学者
·机器学习相关从业人员
·Spark 3.0机器学习初学者
·高等院校和培训机构数据分析和挖掘专业的师生
作者与鸣谢
本书基础内容由王晓华创作,Spark 3.0版本的更新和测试工作由罗凯靖完成。感谢本书出版过程中的所有参与人员。
作者
2021年10月