上QQ阅读APP看书，第一时间看更新

前言

Spark在英文中是火花的意思，创作者希望能够像火花一样照亮大数据时代的数据挖掘。大数据时代是一个充满机会和挑战的时代，就像一座未经开发的金山，任何人都有资格去获得其中的宝藏，仅仅需要的就是有一把得心应手的工具——ML。

本书目的

本书的主要目的是介绍如何使用ML进行数据挖掘。ML是Spark 3.0中最核心的部分之一，是Spark 3.0机器学习库。经过无数创造者卓越的工作，ML已经成为一个优雅的、可以运行在分布式集群上的数据挖掘工具。

ML充分利用了现有数据挖掘的技术与手段，将隐藏在数据中不为人知但又包含价值的信息提取出来，并通过相应的计算机程序，无须人工干预，自动在系统中进行计算，以发现其中的规律。

通常，数据挖掘的难点和重点在于两个方面，分别是算法的学习和程序的设计。有的还需要读者有些相应的背景知识，例如统计学、人工智能、网络技术等。本书在写作上以工程实践为主，重点介绍其与数据挖掘密切相关的算法与概念，并且使用浅显易懂的语言将其中涉及的算法进行概括性描述，从而帮助读者更好地了解和掌握数据挖掘的原理。

笔者在写作本书的时候有一个基本原则—这本书应该体现工程实践与理论之间的平衡。数据挖掘的目的是为了解决现实中的问题，并提供一个结果，而不是去讨论比较哪个算法更高深、看起来更能吓唬人。本书对算法的基本理论和算法做了描述，如果有读者觉得有点难，可以找相应的教材深入学习一下，相信大多数读者都能理解相关的内容。

本书内容

本书主要介绍Spark 3.0的ML数据挖掘算法，内容分成三部分：第一部分（第1~4章）是ML、DataFrame的基本概念和用法，以及管道技术和一些数据挖掘的基本数理统计知识；第二部分（第5~12章）是ML算法的应用，包括协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等；第三部分（第13章）通过一个经典的鸢尾花分析实例，向读者演示如何使用ML来进行数据挖掘工作。

本书特点

·本书尽量避免纯粹的理论知识介绍和高深技术研讨，完全从应用实践出发，用最简单、典型的示例引申出核心知识，最后指出通往“高精尖”进一步深入学习的道路。

·本书全面介绍ML涉及的数据挖掘的基本结构和上层程序设计，借此能够系统地看到ML的全貌，使读者在学习过程中不至于迷失方向。

·本书在写作上浅显易懂，没有深奥的数学知识，采用较为简洁的形式描述应用的理论知识，让读者轻松愉悦地掌握相关内容。

·本书旨在引导读者进行更多技术上的创新，每章都会用示例描述的形式帮助读者更好地学习内容。

·本书代码遵循重构原理，避免代码污染，引导读者写出优秀、简洁、可维护的代码。

·本书所有数据格式均为DataFrame类型，并且使用管道技术执行机器学习算法。

源码、PPT课件、思维导图、数据集与开发环境下载

本书配套源码、PPT课件、思维导图、数据集与开发环境，需要使用微信扫描右侧二维码下载，可按提示把链接转发到自己的邮箱中下载。如果有疑问，请发邮件至booksaga@163.com，邮件主题为“Spark 3.0大数据分析与挖掘：基于机器学习”。

本书读者

·Spark大数据分析与挖掘初学者

·机器学习相关从业人员

·Spark 3.0机器学习初学者

·高等院校和培训机构数据分析和挖掘专业的师生

作者与鸣谢

本书基础内容由王晓华创作，Spark 3.0版本的更新和测试工作由罗凯靖完成。感谢本书出版过程中的所有参与人员。

作者

2021年10月