4.2.1 线性回归用于分类有什么问题_可解释机器学习：黑盒模型可解释性理解指南-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

4.2.1　线性回归用于分类有什么问题

线性回归模型能很好地建模回归，但建模分类就会失败，这是为什么呢？对于两个类，可以将其中一个类标记为0，另一个类标记为1，然后使用线性回归。从技术上讲，这是可行的，大多数线性模型程序都会得到权重。但这种方法存在一些问题：

·线性模型不输出概率，但它将类视为数字（0 和1），并拟合最佳超平面以最小化点和超平面之间的距离。所以它只是在点之间插值，而你不能把它解释为概率。

·一个线性模型也会给出低于0 和高于1 的值，表明应该找到一个更好的分类方法。

·由于预测的结果不是概率，而是点之间的线性插值，因此没有一个有意义的阈值可以用来区分一个类和另一个类，这类问题可以参考Stackoverflow。如图4-5 所示，线性模型根据肿瘤的大小将其分类为恶性（1）或良性（0），这些线条显示了线性模型的预测。对于左边的数据，可以使用0.5 作为分类阈值；在引入更多的恶性肿瘤病例后，对于右边的数据，0.5 的阈值不再能区分这两类。

·线性模型不能扩展到具有多个类别的分类问题，必须用2、3 等标记下一个类别。类别的顺序可能没有任何意义，但是线性模型会在特征和类别预测之间的关系上强制加一个约束。具有正权重的特征值越高，它对具有更高编号的类别的预测所起的作用就越大，即便相似编号的两个类别并不比其他类别更近。

图4-5　线性模型以0.5 为阈值对肿瘤的分类