上QQ阅读APP看书,第一时间看更新
本书的组织
本书遵循了着手解决一个预测问题的基本流程。开始阶段包括对数据的理解、如何形式化表示问题,然后开始尝试使用算法解决问题,评估其性能。在这个过程中,本书将概要描述每一步采用的方法及其原因。第1章给出本书涵盖的问题和所用方法的完整描述,本书使用来自UC Irvine数据仓库的数据集作为例子;第2章展示了一些数据分析的方法和工具,帮助读者对新数据集具有一定的洞察力。第3章“预测模型的构建:平衡性能、复杂性以及大数据”主要介绍由上述三者带给预测分析技术的困难以及所采用的技术,勾勒了问题复杂度、模型复杂度、数据规模和预测性能之间的关系,讨论了过拟合问题以及如何可靠地感知到过拟合,以及不同类型问题下的性能评价标准。第4章、第5章分别介绍惩罚线性回归的背景及其应用,即如何解决第2章所述的问题。第6章、第7章分别介绍集成方法的背景及其应用。