4.1.1 解释
线性回归模型中权重的解释取决于相应特征的类型。
(1)数值特征。将数值特征增加一个单位会根据其权重改变估计结果。例如,房屋面积。
(2)二分类特征。具有两个可能值的特征,例如“房屋是否有花园”特征,一个值为“房屋有花园”(用1 编码),而另一个值被视为参照类别,例如“房屋没有花园”(用0 编码)。将特征从参照类别更改为其他类别会根据特征的权重改变估计结果。
(3)具有多个类别的分类特征。具有固定数量的可能值的特征。例如,“地板类型”特征,可能的类别为地毯、层压板和镶木地板。一种处理多种类别的解决方案是独热编码,这意味着每种类别都有自己的二进制列。对于具有L 个类别的分类特征,只需要L-1 列,因为第L 列将具有冗余信息(例如,当1~L-1 列的值都为0 时,可以知道此实例的分类特征为第L 个类别)。然后对每种类别的解释与对二分类特征的解释相同。某些语言(例如R)允许以多种方式对分类特征进行编码,如本节稍后所述。
(4)截距项β0。截距是“常量特征”的特征权重,对所有实例都是1。大多数软件包会自动添加“1”这个特征来估计截距。解释是:对所有数值特征为零和分类特征为参照类别的实例,模型预测是截距权重。截距的解释通常不相关,因为所有特征值都为零的实例通常没有意义。只有当特征标准化(均值为0,标准差为1)时,这种解释才有意义。此时,截距就将反映当所有特征都处于其均值时的实例的预测结果。
线性回归模型中特征的解释可以通过使用以下文本模板自动进行。
1.数值特征的解释
当所有其他特征保持不变时,特征xk 增加一个单位,则预测结果y 增加βk。
2.分类特征的解释
当所有其他特征保持不变时,将特征xk 从参照类别改变为其他类别时,预测结果y 会增加βk。
解释线性模型的另一个重要度量是R-平方(R-squared,R2)。通过R-平方,可以知道模型解释了多少目标结果的总方差。R-平方越高,模型对数据的解释就越好。R-平方的计算公式为:
SSE 是误差项的平方和:
SST 是数据方差的平方和:
SSE 会显示在拟合线性模型后还有多少方差,该方差是通过预测结果和真实结果之间的平方差来衡量的。SST 是目标结果的总方差。R-平方显示有多少方差可以用线性模型解释。对于根本无法解释数据的模型,R-平方的值为0;对于解释数据中所有方差的模型,R-平方的值为1。
这里有一个陷阱,因为R-平方随模型中的特征数量的增加而增加,即便它们不包含任何关于目标值的信息也是如此。因此,最好使用调整后的R-平方,它考虑了模型中使用的特征数量。其计算式如下:
式中,p 是特征的数量;n 是实例的数量。
解释一个调整后的R-平方很低的模型是没有意义的,因为这样的模型基本上不能解释大部分的方差,对权重的任何解释都没有意义。
3.特征重要性
在线性回归模型中,某个特征的重要性可以用它的t-统计量(t-statistic)的绝对值来衡量。t-统计量是以标准差为尺度的估计权重。
式中,SE 为标准差(Standard Error)。
由式(4-7)可知:特征的重要性随着权重的增加而增加。估计权重的方差越大(或者对正确值的把握越小),特征就越不重要,这也是有道理的。