3.7 简单线性回归中的非线性变换_回归分析（修订本）（社会学教材教参方法系列）-QQ阅读玄幻男生网

上QQ阅读APP看书，第一时间看更新

3.7 简单线性回归中的非线性变换

前面我们讨论了自变量和因变量为线性关系时的一元回归方程，但是，如图3-7所示，因变量和自变量之间还可能存在非线性关系。通过某些恰当的转换，这些非线性关系可以被表示为线性关系，从而可以应用线性回归作为研究工具。所以，在实际应用中我们经常会碰到非线性变换的情形。这里我们将简要介绍回归分析中常见的两种变换形式：对数变换和二次项变换。

3.7.1 对数变换

在例题3-1中，我们得到年平均收入和受教育年限之间的关系为0.56xi。这就是说，平均而言，受教育年限每增加1年，个人年收入增长560元。由于方程的线性性质，不管个人的受教育年限是从6年增加到7年，还是从12年增加到13年，年收入的平均增长量都是固定不变的560元。但是这种情况可能并不符合真实情况。另一种可能的情况是，受教育年限对年收入的相对影响不是一个固定的加减关系，而是一个稳定的比例关系。这可以理解为：在其他条件相同的情况下，例如个人受教育年限从6年增加到7年，年收入平均增长6%，而当受教育年限从12年增加到13年的时候，个人年收入同样平均增长6%。这种描述稳定比例增长的理论模型可以表示为：

这里，log（·）表示对因变量取自然对数，也就是所谓的对数变换。

而当b1Δx很小时，我们有如下的近似值

也就是说，随着每一个单位x的增加，y会按b1这一比例增加。

此外，对数变换还有其他的好处。比如，当Y＞0的时候，Y的分布出现正向偏倚，在这种情况下，通常将log（Y）作为因变量更容易满足回归模型中因变量符合正态分布的假定。另外，对因变量取对数还可以缩小因变量的取值范围，从而削弱一些很大的异常值对回归方程估计的影响。

在对因变量进行对数变换的时候，我们还需要注意以下两个问题：第一，对数变换并不适用于因变量取值中的零和负值。对于那些包含少量零值的变量，我们可以采用log（α+Y）的变换来保留零值，其中α是一个对因变量来说很小的常数（如1或50）。当然，如果这些零值没有什么实际意义（比如，因为随机因素而产生的缺失值），我们也可以将这些观察点忽略掉。第二，当因变量为log（Y）时，利用估计出的回归方程只能预测在特定X取值下log（Y）的均值，即log（Y）的算术平均值；但如果我们将该值转换成Y的时候，我们得到的是Y的几何平均值。如果想得到Y的算术平均值，则需要进行一定的修正。对修正方法有兴趣的读者可以参阅Wooldridge（2009: 210-212）。

3.7.2 二次项变换

前面讲到的一元线性回归方程适用于处理自变量X以固定量对因变量Y产生影响的情况，即无论X的取值如何，每增加（或减少）一个单位的X, Y的改变量都是固定的b1个单位。但在有些情况下，这种固定影响并不符合实际情况。比如，Mincer（1958）在研究工作年限对个人年收入对数的影响时就发现，个人年收入对数随着工作年限的增加首先出现增加的趋势，但增加的幅度逐渐减小，然后在超过某一个时间点以后便开始出现下降的趋势。为了描述这种边际效应递增或者递减的情况，我们可以将理论模型表示成二次方程的形式，即：

当X在整个取值范围内变化时，负的系数意味着二次函数是一个倒U形曲线。Mincer发现的工作年限与年收入对数之间的关系即属于这一情形，即X对Y的边际效应随着的X增加逐渐减小。也就是说，总是存在当X为某一取值的时候，Y取得最大值，此时X对Y的影响为零。而在这一点之前，X对Y存在正影响；在这一点之后，X对Y存在负影响。反过来，当系数b2为正的时候，二次函数是一个U形曲线，Y有最小值；在这一点之后，X对Y的边际效应随着X的增加逐渐增加。