商用机器学习:数据科学实践
上QQ阅读APP看书,第一时间看更新

第3章 监督学习:线性回归

统计学家使用线性回归的方法已经有很多年的历史了。德国著名数学家高斯(Gauss)在1800年首先提出了最小二乘法理论,奠定了线性回归的基础。在机器学习过程中,我们不需要假设线性关系(在本书中,我们将介绍的很多方法都会利用非线性模型)。但是,线性回归依然是机器学习中很重要的一种方法论,它常常是监督学习分析最先采用的方法之一。

当模型目标值可以被一个或多个特征预测时,一般线性回归的核心是对均方误差(mean square error,MSE)的最小化,对于这一点很多读者都非常熟悉。在本章中,我们将介绍如何将分类型特征(非数值型特征)加入线性回归模型来进行预测分析。然后,我们将分别讨论岭回归、套索回归和弹性网络回归如何在特征数目较多时进行预测分析。最后,我们将介绍逻辑回归,这是一种旨在对于数据进行分类的方法。