![计量经济学](https://wfqqreader-1252317822.image.myqcloud.com/cover/385/26832385/b_26832385.jpg)
§2.6 回归分析的应用——预测
一、预测概述
计量经济分析的目的之一就是预测。预测是关于未来事件可能结果的估计,对结果的估计依赖于过去和现在的信息。而预测信息就包含在回归分析模型中。把模型结果外推到样本区间以外,就能对被解释变量的未来值进行预测。
在时间序列分析中,预测就是指对事物未来状态的估计。在截面数据分析中,预测分析同样适用,此时的目的是预测当X取特定值X0时,Y的可能结果值为Y0。
点预测就是对预测对象的未来值给出一个估计值,区间预测就是给出预测对象实际值的一个置信区间。
由预测分析得到的信息有许多用途。经济系统中,预测常常用来指导经济政策和方针的制定。当预测到经济系统将出现高通货膨胀时,政府往往会提前采取紧缩的政策。当预测石油价格会上涨时,人们会增加石油的储备。预测结果还能用于指导建立模型。当预测结果与实际结果相差较大时,会利用误差信息对模型进行修正。
预测分事后模拟预测和事先预测。事后模拟预测指对样本区内已知Y的结果值的区间进行估计,也称为模拟值。事先预测指对样本区外未知Y的结果进行估计。
二、均值预测
在收入-消费模型中,我们得到样本回归模型为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0107.jpg?sign=1738986932-lWlUVBsTVqrruLH72574qlYxn1mHs0BV-0-f20e3cdc750dc23c778eb7db2c8b821f)
其中是对应于给定Xi的Yi的总体均值E(Yi)的估计量。均值预测就是预测对于给定的X0,Y的条件均值的值,也就是预测总体回归线本身上的点。
利用式(2.82)进行预测,假定X0=2000,我们对Yi的均值E(Y|X0=2000)进行预测,预测的点估计为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0108.jpg?sign=1738986932-Xm9FKYXlBNkhaJ5lbmdNh179xt74iUgV-0-67813a45052b31032525bfff0c44ebf3)
其中是E(Y|X0)的估计量。可以证明,这个点预测是一个最佳线性无偏估计量。
是一个估计量,不同于它的真实值E(Y|X0)。因为
是随机变量
,
的函数,因此,
也是一个随机变量。
可以证明,是服从正态分布的,其均值为β1+β2X0,而方差为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0109.jpg?sign=1738986932-l9Fr4hOI59Lowq405h9uqA95uG93W839-0-4b8fd3415ee2755895f3583ea8705222)
用σ2的无偏估计量代替式(2.84)中的σ2,可得
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0046_0110.jpg?sign=1738986932-kZyzCs0dr469eXx2YyoCxGW5dUDWtFoN-0-afb2912ec7158b1f4e36e3972b3b18e5)
其中se()代表
的标准误。可以证明,式(2.85)中t服从自由度为n-2的t分布。据式(2.85)可得到E(Y|X0)的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0111.jpg?sign=1738986932-LHq7OxH9cGm8VQ9DVl3cCmfcQ1lzGhi3-0-919fc4e4054e473bac8e50c452751435)
根据收入-消费例中数据(表2.4)可得
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0112.jpg?sign=1738986932-03sk7MrSCEyKkEFHN00LijHlVGCizvmM-0-5551551f050f47ad060b7f0c375fb821)
由此,可得到真实均值E(Y|X0)=β1+β2X0的95%置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0113.jpg?sign=1738986932-KufBxgPnfACy1isf5fjrzgp6KOMplzye-0-7a3651ef9a2cff666395e207c84d9c9a)
即
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0114.jpg?sign=1738986932-ANSGlVkMj1fz0W43ob4NB3ejuLUMrwTn-0-88f9429f28682185b225c31c7ee387ea)
上式的意义为,给定X0=2000,在重复抽样中,每100个类似式(2.87)的区间将有95个包含着真实的均值;真实均值的单个最优估计就是点估计值1683.879。
对表2.4中的每个X值求类似于式(2.87)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于总体回归模型的置信域。
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0047_0115.jpg?sign=1738986932-DNc785Welr5xdu9Me1o260czMGcjoFbX-0-93b79fce3bf8ccc24903f17589b430e4)
图2.7 Y均值与Y个值的置信域
三、个值预测
如果我们想预测个别家庭的消费支出,即预测对应于给定X值(X=X0)的单个Y值(Y=Y0),其点预测为=
+
X0,
为Y0的最佳线性无偏估计量。个值预测的点预测与均值预测的点预测结果相同,但其方差不同,区间预测的结果也不同。其方差为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0116.jpg?sign=1738986932-osPwsVPIz9wFjH2v0mITrE8TQXRWKj24-0-f1515689f16722405fe6b92a9c76c6dc)
可以证明,用代替σ2时,
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0117.jpg?sign=1738986932-gq4w5cYFsmHiu3n980jiSGiEscmZVbMy-0-0121af7c40c54dadb1bb320d459a4293)
服从t分布,可根据t分布推断Y0的置信区间,即对Y0进行区间预测。
在个值预测中,Y0-=
,代表预测误差。
的来源有两个,一个是
的抽样误差,来自于我们对βj的估计,即Var(
),它随样本容量的增大而变小。另一个是总体误差项u的方差σ2,它不随样本容量的变化而变化。
据式(2.89),可得到个值预测的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0118.jpg?sign=1738986932-bVkI2YwXHtsvEXi2HNOKkOW0lQLMFAsg-0-c9c7234b65097ac7c8d475769701623c)
以收入-消费模型为例进行个值预测。Y0的点预测与的点预测一样,同样是1683.879.在5%的显著性水平下,X0=2000时,(Y0-
)的方差和标准误为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0119.jpg?sign=1738986932-7argPsPfZ1vORDXWoTLpDZq25Yu1sPMd-0-98456407bfe20db03cbf378aaef9de4a)
则Y0的置信区间为
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0120.jpg?sign=1738986932-gWH1U2wAefaNPrZVzYmBZglTxf53l4Cn-0-59916ebbce37a8e3d385d8dc970e9b95)
即
![](https://epubservercos.yuewen.com/36F274/15279428604141806/epubprivate/OEBPS/Images/figure_0048_0121.jpg?sign=1738986932-ze2TWkaQFrCHKyivSB7ejl1LZI1pQBFy-0-2ea1c6b49131cfbc77e79b5382cea0c9)
可以看出个值预测的置信区间比均值预测的置信区间要宽。这是因为个值预测的误差除了来源于抽样波动外,还来源于误差项u的随机扰动,而均值预测的误差来源仅仅为抽样波动。
据表2.4中的每个X值求类似于式(2.91)的置信区间,并把这些置信区间在二维直角坐标系中联结起来,我们就得到如图2.7所示的一个关于Y的个值预测的95%的置信域。
在图2.7中,置信区间的宽度是随着X0与的距离而变化的。
时,宽度最小。随着X0远
置信区间的宽度变大。由此可知样本回归线对未来结果的预测能力随着X0远
越来越低。因此,当进行均值或个值预测时,就必须慎重考虑它的可靠性。预测点距离样本期越远,其可靠性就越差。