3.7 简单线性回归中的非线性变换
前面我们讨论了自变量和因变量为线性关系时的一元回归方程,但是,如图3-7所示,因变量和自变量之间还可能存在非线性关系。通过某些恰当的转换,这些非线性关系可以被表示为线性关系,从而可以应用线性回归作为研究工具。所以,在实际应用中我们经常会碰到非线性变换的情形。这里我们将简要介绍回归分析中常见的两种变换形式:对数变换和二次项变换。
3.7.1 对数变换
在例题3-1中,我们得到年平均收入和受教育年限之间的关系为0.56xi。这就是说,平均而言,受教育年限每增加1年,个人年收入增长560元。由于方程的线性性质,不管个人的受教育年限是从6年增加到7年,还是从12年增加到13年,年收入的平均增长量都是固定不变的560元。但是这种情况可能并不符合真实情况。另一种可能的情况是,受教育年限对年收入的相对影响不是一个固定的加减关系,而是一个稳定的比例关系。这可以理解为:在其他条件相同的情况下,例如个人受教育年限从6年增加到7年,年收入平均增长6%,而当受教育年限从12年增加到13年的时候,个人年收入同样平均增长6%。这种描述稳定比例增长的理论模型可以表示为:
这里,log(·)表示对因变量取自然对数,也就是所谓的对数变换。
而当b1Δx很小时,我们有如下的近似值
也就是说,随着每一个单位x的增加,y会按b1这一比例增加。
此外,对数变换还有其他的好处。比如,当Y>0的时候,Y的分布出现正向偏倚,在这种情况下,通常将log(Y)作为因变量更容易满足回归模型中因变量符合正态分布的假定。另外,对因变量取对数还可以缩小因变量的取值范围,从而削弱一些很大的异常值对回归方程估计的影响。
在对因变量进行对数变换的时候,我们还需要注意以下两个问题:第一,对数变换并不适用于因变量取值中的零和负值。对于那些包含少量零值的变量,我们可以采用log(α+Y)的变换来保留零值,其中α是一个对因变量来说很小的常数(如1或50)。当然,如果这些零值没有什么实际意义(比如,因为随机因素而产生的缺失值),我们也可以将这些观察点忽略掉。第二,当因变量为log(Y)时,利用估计出的回归方程只能预测在特定X取值下log(Y)的均值,即log(Y)的算术平均值;但如果我们将该值转换成Y的时候,我们得到的是Y的几何平均值。如果想得到Y的算术平均值,则需要进行一定的修正。
3.7.2 二次项变换
前面讲到的一元线性回归方程适用于处理自变量X以固定量对因变量Y产生影响的情况,即无论X的取值如何,每增加(或减少)一个单位的X, Y的改变量都是固定的b1个单位。但在有些情况下,这种固定影响并不符合实际情况。比如,Mincer(1958)在研究工作年限对个人年收入对数的影响时就发现,个人年收入对数随着工作年限的增加首先出现增加的趋势,但增加的幅度逐渐减小,然后在超过某一个时间点以后便开始出现下降的趋势。为了描述这种边际效应递增或者递减的情况,我们可以将理论模型表示成二次方程的形式,即:
当X在整个取值范围内变化时,负的系数意味着二次函数是一个倒U形曲线。Mincer发现的工作年限与年收入对数之间的关系即属于这一情形,即X对Y的边际效应随着的X增加逐渐减小。也就是说,总是存在当X为某一取值的时候,Y取得最大值,此时X对Y的影响为零。而在这一点之前,X对Y存在正影响;在这一点之后,X对Y存在负影响。反过来,当系数b2为正的时候,二次函数是一个U形曲线,Y有最小值;在这一点之后,X对Y的边际效应随着X的增加逐渐增加。