上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.2.1 线性回归用于分类有什么问题
线性回归模型能很好地建模回归,但建模分类就会失败,这是为什么呢?对于两个类,可以将其中一个类标记为0,另一个类标记为1,然后使用线性回归。从技术上讲,这是可行的,大多数线性模型程序都会得到权重。但这种方法存在一些问题:
·线性模型不输出概率,但它将类视为数字(0 和1),并拟合最佳超平面以最小化点和超平面之间的距离。所以它只是在点之间插值,而你不能把它解释为概率。
·一个线性模型也会给出低于0 和高于1 的值,表明应该找到一个更好的分类方法。
·由于预测的结果不是概率,而是点之间的线性插值,因此没有一个有意义的阈值可以用来区分一个类和另一个类,这类问题可以参考Stackoverflow。如图4-5 所示,线性模型根据肿瘤的大小将其分类为恶性(1)或良性(0),这些线条显示了线性模型的预测。对于左边的数据,可以使用0.5 作为分类阈值;在引入更多的恶性肿瘤病例后,对于右边的数据,0.5 的阈值不再能区分这两类。
·线性模型不能扩展到具有多个类别的分类问题,必须用2、3 等标记下一个类别。类别的顺序可能没有任何意义,但是线性模型会在特征和类别预测之间的关系上强制加一个约束。具有正权重的特征值越高,它对具有更高编号的类别的预测所起的作用就越大,即便相似编号的两个类别并不比其他类别更近。
图4-5 线性模型以0.5 为阈值对肿瘤的分类