更新时间:2020-11-28 22:29:23
封面
版权信息
前言
第1章 星星之火
1.1 大数据时代
1.2 大数据分析时代
1.3 简单、优雅、有效——这就是Spark
1.4 核心——MLlib
1.5 星星之火,可以燎原
1.6 小结
第2章 Spark安装和开发环境配置
2.1 Windows单机模式Spark安装和配置
2.2 经典的WordCount
2.3 小结
第3章 RDD详解
3.1 RDD是什么
3.2 RDD工作原理
3.3 RDD应用API详解
3.4 小结
第4章 MLlib基本概念
4.1 MLlib基本数据类型
4.2 MLlib数理统计基本概念
4.3 小结
第5章 协同过滤算
5.1 协同过滤
5.2 相似度度量
5.3 MLlib中的交替最小二乘法(ALS算法)
5.4 小结
第6章 MLlib线性回归理论与实验
6.1 随机梯度下降算法详解
6.2 MLlib回归的过拟合
6.3 MLlib线性回归实战
6.4 小结
第7章 MLlib分类实战
7.1 逻辑回归详解
7.2 支持向量机详解
7.3 朴素贝叶斯详解
7.4 小结
第8章 决策树与保序回归
8.1 决策树详解
8.2 保序回归详解
8.3 小结
第9章 MLlib中聚类详解
9.1 聚类与分类
9.2 MLlib中的Kmeans算法
9.3 高斯混合聚类
9.4 快速迭代聚类
9.5 小结
第10章 MLlib中关联规则
10.1 Apriori频繁项集算法
10.2 FP-growth算法
10.3 小结
第11章 数据降维
11.1 奇异值分解(SVD)
11.2 主成分分析(PCA)
11.3 小结
第12章 特征提取和转换
12.1 TF-IDF
12.2 词向量化工具
12.3 基于卡方检验的特征选择
12.4 小结
第13章 MLlib实战演练——鸢尾花分析
13.1 建模说明
13.2 数据预处理和分析
13.3 长与宽之间的关系——数据集的回归分析
13.4 使用分类和聚类对鸢尾花数据集进行处理
13.5 最终的判定——决策树测试
13.6 小结
作者简介