更新时间:2020-09-24 12:36:56
封面
版权页
内容提要
编委会
丛书序一
丛书序二
前言
第1章 绪论
1.1 大数据分析与挖掘简介
1.2 大数据应用及挑战
1.3 大数据分析与挖掘主要技术
1.4 大数据分析与挖掘工具
1.4.1 Sklearn
1.4.2 Spark ML
1.4.3 华为云的机器学习服务
第2章 数据特征分析与预处理
2.1 数据类型
2.1.1 数据集类型
2.1.2 数据属性的类型
2.2 数据的描述性特征
2.2.1 描述数据集中趋势的度量
2.2.2 描述数据离中趋势的度量
2.2.3 数据分布形态的度量
2.2.4 数据分布特征的可视化
2.3 数据的相关分析
2.3.1 相关分析
2.3.2 卡方(χ2)检验
2.4 数据预处理
2.4.1 数据变换、离散化与编码
2.4.2 数据抽样技术
2.4.3 主成分分析
2.4.4 数据清洗
2.5 Spark数据预处理功能简介
2.5.1 二值化
2.5.2 分箱器
2.5.3 哈达玛积变换
2.5.4 最大绝对值标准化
2.5.5 最小—最大变换
2.5.6 正则化
2.5.7 多项式扩展
2.5.8 标准化
2.5.9 特征向量合并
2.5.10 类别特征索引
习题
第3章 关联规则挖掘
3.1 基本概念
3.2 基于候选项产生—测试策略的频繁模式挖掘算法
3.2.1 Apriori算法
3.2.2 基于划分的算法
3.2.3 事务数据的存储
3.3 不需要产生候选项集的频繁模式挖掘算法
3.3.1 FP-Growth算法
3.3.2 Spark上FP-Growth算法实践
3.4 结合相关性分析的关联规则
3.5 多层关联规则挖掘算法
3.6 序列模式挖掘
3.6.1 序列模式的定义
3.6.2 PrefixSpan算法
3.6.3 与其他序列模式挖掘算法的比较和分析
3.7 其他类型关联规则简介
3.7.1 量化关联规则
3.7.2 时态关联规则
3.7.3 局部化的关联规则
3.7.4 优化的关联规则
第4章 分类与回归算法
4.1 决策树算法
4.1.1 决策树简介
4.1.2 决策树的类型
4.1.3 决策树的构造过程
4.1.4 信息论的有关概念
4.1.5 ID3算法
4.1.6 信息论在ID3算法中的应用
4.1.7 C4.5算法
4.1.8 CART算法
4.1.9 过拟合与决策树剪枝
4.1.10 决策树后剪枝策略
4.1.11 决策树的生成与可视化
4.1.12 几种属性选择度量的对比
4.2 贝叶斯分类器
4.2.1 贝叶斯决策理论
4.2.2 极大似然估计
4.2.3 朴素贝叶斯分类器
4.2.4 贝叶斯网络基础
4.2.5 通过贝叶斯网络判断条件独立
4.2.6 贝叶斯网络推理实例
4.3 基于实例的分类算法
4.3.1 KNN分类器
4.3.2 局部加权回归
4.3.3 基于案例的推理
4.4 组合分类算法
4.4.1 Adaboost算法
4.4.2 Bagging算法
4.4.3 随机森林
4.5 分类器算法的评估
4.6 回归分析
4.6.1 线性回归
4.6.2 岭回归
4.6.3 多项式回归
4.6.4 逻辑回归