回归分析(修订本)(社会学教材教参方法系列)
上QQ阅读APP看书,第一时间看更新

3.2 回归模型

本章我们使用的例子是个人受教育程度(edu)对收入(earn)的影响。这种只含有一个自变量的线性回归模型叫做一元回归或者简单回归。所谓的“线性”是指自变量和因变量基于自变量的条件期望之间呈线性规律,且结构项对未知参数而言是线性的。

3.2.1 回归模型的数学表达

一般地,一元线性回归模型可以表示为:

这里,

yi表示第i名个体在因变量Y(也称结果变量、反应变量或内生变量)上的取值,Y是一个随机变量。

xi表示第i名个体在自变量X(也称解释变量、先决变量或外生变量)上的取值。注意,与Y不同,X虽然被称作变量,但它的各个取值其实是已知的,只是其取值在不同的个体之间变动。

β0β1是模型的参数,通常是未知的,需要根据样本数据进行估计。β0+β1xi也就是前面所讲的结构项,反映了由于x的变化所引起的y的结构性变化。

ε是随机误差项,也是一个随机变量。而且,有均值Eε)= 0、方差 σ2和协方差。注意,它就是前面所讲的随机项,代表了不能由X结构性解释的其他因素对Y的影响。

公式(3-1)定义了一个简单线性回归模型。“简单”是因为该模型只包含一个自变量。但是,在社会科学研究中,导致某一社会现象的原因总是多方面的,因此,我们在很多情况下都必须考虑多个自变量的情况。当模型纳入多个自变量时,公式(3-1)就扩展为第5章要讲到的多元回归模型。“线性”一方面指模型在参数上是线性的,另一方面也指模型在自变量上是线性的。很明显,在公式(3-1)中,没有一个参数是以指数形式或以另一个参数的积或商的形式出现,自变量也只是以一次项的形式存在。因此,公式(3-1)所定义的模型也被称作一阶模型(first-order model)(见Kutner, Nachtsheim, Neter,& Li, 2004)。

对应指定的xi值,在一定的条件下,对公式(3-1)求条件期望后得到:

我们将公式(3-2)称为总体回归方程(population regression function,简称PRF)。它表示,对于每一个特定的取值xi,观测值yi实际上都来自一个均值为μ、方差为σ2的正态分布,而回归线将穿过点(xi, μi),如下图3-1所示。由公式(3-2)不难看到,β0xi=0时的期望,而β1则反映着X的变化对Y的期望的影响。在几何上,公式(3-2)所确定的是一条穿过点(xi, μi)的直线,这在统计学上被称作“回归直线”或“回归线”。所以,β0就是回归直线在y轴上的截距(intercept),而β1则是回归直线的斜率(slope)。因此,我们将β0β1称作回归截距和回归斜率。图3-2直观地展示了β0β1的含义。

图3-1 特定xiY的分布图

图3-2 β0β1的几何含义

无论回归模型还是回归方程,都是针对总体而言,是对总体特征的总结和描述。所以,参数β0β1也是总体的特征。但是在实际研究中我们往往无法得到总体的回归方程,只能通过样本数据对总体参数β0β1进行估计。比如1988年的CHIP数据只是来自当年全部总体的一个样本,我们需要通过对CHIP数据进行统计推断来建立对总体的认识。当利用样本统计量b0b1代替总体回归方程中的β0β1时,就得到了估计的回归方程或经验回归方程,其形式为:

同时,我们也可以得到观测值与估计值之差,称为残差,记作ei,它对应的是公式(3-1)中的总体随机误差项εi。观测值、估计值和残差这三者之间的关系可用图3-3加以说明。

图3-3 回归中观测值yi、拟合值y^i 与残差ei的关系

3.2.2 回归系数的最小二乘估计

以上我们对简单回归模型中的一些基本概念进行了简要介绍。接下来的问题便是,如何估计回归方程中的截距系数β0和斜率系数β1呢?为了找到好的β0β1估计量,我们采用常规最小二乘法(ordinary least squares,简称OLS)。该方法的基本思路为:根据从总体中随机抽出的一个样本,在平面直角坐标系中找到一条直线,使得观测值yi和拟合值之间的距离最短,即两者之间残差(ei=yi-y^i)的平方和(记为D)最小。数学上,我们可以将残差平方和表示为:

根据微积分知识,我们知道,要想使公式(3-4)取得最小值,须满足以下两个条件:

进一步将公式(3-5a)和(3-5b)加以整理得到以下正态方程组:

求解公式(3-6a)和(3-6b)组成的正态方程组,我们可以得到:

这样,我们就得到了回归系数的最小二乘估计。另外,细心的读者也许能注意到,根据公式(3-7b),回归斜率系数的估计值实际上会等于自变量和因变量之间的样本协方差与自变量的样本方差之比,即:

所以,b1可以被看作是应用样本数据来计算比例

而这一比例可用来估计总体未知的参数β1

在知道了回归斜率系数的估计值的情况下,我们也可以采用下式来计算回归截距系数的估计值:

在计算量很小的情况下,利用公式(3-8)和公式(3-9),我们可以通过手动计算便利地得到回归截距和斜率系数的估计值。

请注意,“最小平方和”并不是“最佳估计”的唯一标准。直观地看,如果仅仅表示观测值和预测值之间距离最短,那么计算两者间距离绝对值的最小和似乎会是一种更好的估计。实际上,用距离绝对值的最小和做标准可以得到具有更好统计性质的估计值得到的估计值叫“最小绝对偏差法”(LAD)估计值。它的主要优点是不太容易受异常值对回归参数估计值的影响。。但是,最常用的估计法还是最小二乘法,因为这种方法的公式简单,计算方便,得到的回归系数b0b1具有更好的统计性质这里,更好的统计性质主要是指残差和∑êi 总是等于零,或者说误差的样本均值为零。不管样本中散点的分布如何,最小二乘直线总是穿过散点的质心(x, y)。然而,最小平方和也会造成一种不好的结果。由于误差被平方化了,这种方法将会放大异常值对回归参数估计值的影响。不过,我们将在第17章有关回归诊断的内容中专门对这一问题进行讨论。:线性、无偏性和有效性。下面,我们将对b0b1的线性特性加以证明。

3.2.3 回归模型的基本假定

为了能够唯一地识别模型参数及进行有关的统计检验,任何统计模型都需要假定条件。本书所介绍的回归分析及其扩展情形也不例外。本节将对公式(3-1)所示的简单回归模型所需的假定加以说明。理解这些假定条件是理解多元回归模型乃至其他更复杂模型的基础。

A0模型设定假定(线性假定)

该假定规定Y的条件均值这里的条件均值相当于第1章1.3.6节中提到的条件期望的含义,也就是X取特定值时Y的平均数。是自变量X的线性函数:μi=β0+β1xi。注意,β0, β1为未知的总体参数。在某些情况下,我们可能会碰到非线性函数的情形。借助于数学上的恒等变换,我们有时可以将非线性函数转换成线性函数的形式。例如,对于,通过变换可以得到:

其中,β0=ln α, β1=γ, εi=ln σi。经过转换后的方程便可以运用最小二乘法,并使得估计值仍然保持最小二乘法估计值的性质。

A1正交假定

正交假定具体包括:(1)误差项εx不相关,即CovX, ε)=0; (2)误差项ε的期望值为0,即Eε)=0。根据正交假定还可以得到:

在A0和A1假定下,我们可以将一元回归方程中y的条件期望定义为:

请注意,A1假定是一个关键的识别假定,它帮助我们从条件期望EY| x)中剥离出残差项。在这一假定下,利用最小二乘估计得到的β0β1的估计值b0b1是无偏的,即:

Eb0)= β0

Eb1)= β1

注意,不管正交假定是否成立,最小二乘估计在计算中已运用了这一假定。换句话说,这一假定是计算公式(3-5a)和(3-5b)的理论依据。因为最小二乘估计是由公式(3-5a)和(3-5b)得到的,最小二乘估计的结果一定无例外地满足如下条件:

A2独立同分布假定

独立同分布假定,也称i. i. d.假定,是指误差项ε相互独立,并且遵循同一分布。这一假定意味着误差项具有两个重要的特性:

(1)任何两个误差项εiεjij)之间的协方差等于0,即Covεi, εj)=0且ij

(2)所有误差项εi的方差都相同,且为σ2,即i,这也被称作等方差假定。

尽管在没有i. i. d.假定的情况下,最小二乘估计已经可以满足无偏性和一致性,但是同时满足A0、A1和A2假定时,最小二乘估计值将是总体参数的最佳线性无偏估计值,也就是通常所说的BLUE(best linear unbiased estimator)。这里,“最佳”表示“最有效”,即抽样标准误最小。

A3正态分布假定

尽管i. i. d.假定规定误差项ε独立且同分布,但是它仍然无法确定ε的实际分布。不过,对于大样本数据,我们可以根据中心极限定理对β进行统计推断。然而在小样本情况下,我们只有在假定ε服从正态分布时才能使用t检验。即:

此外,在误差项ε服从均值为0、方差为σ2的正态分布的情况下,最小二乘估计与总体参数的最大似然估计(MLE)结果一致(Lehmann & Casella, 1998)。在所有无偏估计中,最大似然估计是最佳无偏估计值(best unbiased estimator, BUE)。也就是说,b0b1不仅是β0β1的最佳线性无偏估计,而且是所有的β0β1(线性和非线性的)无偏估计中的最佳选择。需要注意的是,由于最大似然估计可以是非线性的,因此最大似然解释的有效性将比最小二乘解释的有效性更广。进一步讲,最大似然估计的统计推断在大样本情况下具有渐近性质。也就是说,当样本规模趋于无穷大时,最大似然估计不仅满足一致性(渐近无偏),而且能够取得一致估计量中的最小方差。