2.4 逻辑回归
回归问题在机器学习中按照目的不同可以分为回归和分类两大类。本节主要介绍回归的种类、逻辑回归有哪些方面的应用,以及逻辑回归和朴素贝叶斯、线性回归有什么区别。
2.4.1 回归的种类
依据因变量不同,广义线性模型可以有如下划分。
(1)如果是连续的,就是多重线性回归。
(2)如果服从二项分布,就是逻辑回归。
(3)如果服从泊松(Poisson)分布,就是泊松回归。
(4)如果服从负二项分布,就是负二项回归。
(5)逻辑回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更常用,也更容易解释。所以实际中最常用的就是二分类的逻辑回归。
2.4.2 逻辑回归适用性
逻辑回归可用于以下几个方面。
(1)用于概率预测。在可能性预测时,得到的结果有可比性。比如根据模型进而预测在不同的自变量情况下,发生某事或某种情况的概率。
(2)用于分类。实际上跟预测有些类似,也是根据模型预测某人属于某种情况的概率。进行分类时,仅需要设定一个阈值即可,可能性高于阈值的是一类,低于阈值的是另一类。
(3)寻找危险因素。寻找某一疾病的危险因素等。
(4)仅能用于线性问题。只有当目标和特征是线性关系时,才能用逻辑回归。在应用逻辑回归时要注意两点:一是当知道模型是非线性时,不适合用逻辑回归;二是当使用逻辑回归时,应注意选择和目标为线性关系的特征。
(5)各特征之间不需要满足条件独立假设,但各个特征的贡献独立计算。
2.4.3 逻辑回归与朴素贝叶斯的区别
逻辑回归与朴素贝叶斯的区别有以下几个方面。
(1)逻辑回归是判别模型,朴素贝叶斯是生成模型,所以生成和判别的所有区别它们都有。
(2)朴素贝叶斯最核心的部分是贝叶斯法则,逻辑回归的本质是极大似然估计。
(3)朴素贝叶斯需要假设各个自变量之间满足条件独立。
(4)逻辑回归要求特征参数间的关系是线性的。
2.4.4 线性回归与逻辑回归的区别
线性回归与逻辑回归的区别有以下两个方面。
(1)线性回归的样本的输出都是连续值,y∈(-∞,+∞),而逻辑回归中y∈(0,1),只能取0和1。
(2)对于拟合函数也有本质上的差别。
线性回归:
逻辑回归:
可以看出,线性回归的拟合函数,是对f(x)的输出变量y的拟合,而逻辑回归的拟合函数是对1类样本的概率的拟合。
那么,为什么要以1类样本的概率进行拟合呢?为什么可以这样拟合呢?
θTx=0就相当于是1类样本和0类样本的决策边界。
若θTx>0,则y>0.5;若θTx→+∞,则y→1,即y为1类样本。
若θTx<0,则y<0.5;若θTx→-∞,则y→0,即y为0类样本。
这个时候就能看出区别,在线性回归中,θTx为预测值的拟合函数;而在逻辑回归中,θTx为决策边界。
表2-3为线性回归和逻辑回归的区别。
表2-3 线性回归和逻辑回归的区别
拟合函数和预测函数有什么关系?简单来说就是将拟合函数做了一个逻辑函数的转换,转换后使得。
对于最小二乘法,最合理的参数估计量应该使得模型能最好地拟合样本数据,使得估计值和观测值之差的平方和最小;对于极大似然估计,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,也就是使概率分布函数或似然函数最大。