更新时间:2023-08-25 11:19:36
封面
版权信息
内容简介
作者简介
前言PREFACE
第1章 预测分析与机器学习的实用价值
1.1 人工智能、机器学习与数据分析的关系
1.2 什么是预测分析
1.3 预测分析在各行业中的应用
1.4 预测分析流程概览
1.5 小结
第2章 数据清理
2.1 建立编程环境
2.1.1 Anaconda简介及安装
2.1.2 Jupyter Notebook简介及安装
2.1.3 Pandas简介及安装
2.1.4 scikit-learn简介及安装
2.1.5 XGBoost、LightGBM、CatBoost简介及安装
2.1.6 TensorFlow简介及安装
2.2 面对异构数据如何下手
2.2.1 什么是异构数据
2.2.2 如何处理异构数据
2.3 数据误差
2.3.1 各类数据误差及其影响
2.3.2 如何处理数据误差
2.4 数据重新格式化
第3章 基础建模
3.1 判断何为X和y
3.1.1 X和y的定义
3.1.2 X和y的选择对预测的影响
3.2 训练集、验证集与测试集
3.2.1 三者的定义及关系
3.2.2 如何使用sklearn分离3个集
3.2.3 如何使用Pandas手动分离3个集
3.3 数据泄露
3.3.1 不同类型的数据泄露
3.3.2 发现并避免目标泄露
3.3.3 避免训练集与测试集的相互污染
3.4 偏差与方差
3.4.1 定义偏差与方差
3.4.2 过拟合与欠拟合
3.4.3 实践中的过拟合与欠拟合
3.5 小结
第4章 模型选择
4.1 朴素贝叶斯分类器
4.2 关联规则算法
4.3 K近邻算法
4.4 K均值聚类算法
4.5 回归算法
4.5.1 线性回归
4.5.2 罗吉斯蒂回归
4.6 深度神经网络
4.7 决策树
4.8 森林算法
4.8.1 随机森林
4.8.2 极端随机树
4.8.3 孤立森林
4.9 提升方法
4.9.1 Adaboost
4.9.2 XGBoost和LightGBM
4.9.3 CatBoost
第5章 模型优化
5.1 损失函数和衡量指标
5.1.1 分类问题的衡量指标
5.1.2 回归问题的衡量指标
5.1.3 损失函数
5.2 K折交叉验证
5.3 超参数调试
5.3.1 网格搜索法
5.3.2 随机搜索法
5.3.3 遗传算法
5.4 函数正则化
第6章 数据优化
6.1 数据规范化
6.2 异常值清理
6.3 平滑法
6.4 聚类
6.5 特征工程
第7章 时间序列
7.1 时间序列简介
7.2 时间序列数据探索
7.2.1 加法模型下的可视化图
7.2.2 乘法模型下的部分可视化图
7.3 时间序列特征提取
7.3.1 时间特征
7.3.2 滞后特征
7.3.3 基于移动窗口的特征
7.3.4 基于展开窗口的特征
7.4 时间序列模型
7.4.1 自回归模型
7.4.2 滑动平均模型
7.4.3 整合移动平均自回归模型
7.4.4 季节性整合移动平均自回归模型
第8章 实战
8.1 M5预测分析比赛介绍
8.1.1 数据介绍
8.1.2 评估标准
8.2 数据清理
8.3 基础建模
8.4 优化