第一节 需求函数估计回归分析法
回归分析法是需求函数统计分析中最常用的估计方法,它是利用经济变量的数据得出这些变量之间关系的数学方法。这里不去全面涉及经济统计学、计量经济学等许多知识,只是希望通过学习、使用这些分析工具,知道我们是能够通过处理相关信息,作出正确决策。通常统计回归分析有四个步骤、两个检验:确定变量、收集数据、建立模型、回归分析四个步骤和统计检验与经济检验两个检验。
一、变量的确定与数据的甄别
估计的需求函数一般是广义的经验需求函数。影响市场需求的因素或称变量往往很多,也很复杂。因此,需要集中力量抓主要矛盾,抓主要矛盾的主要方面。变量数过多,收集数据的成本会过大;变量数过少,有重大遗漏,会严重影响结果的准确性。基于此,通常有一个建议,变量数最好控制在5个以下。
第二章的式(2.1.8)给出了一个广义需求经验函数的一般形式:
当然,这些变量还可以进一步细分,收入有不同性质的收入,价格也有多种类型相关商品的价格。在有些场合,还有些变量将起着十分重要的作用。如广告的投放量对最终消费品的影响,季节对时令商品的影响,气温对降温保暖商品的影响,利率对投资品的影响等。
以式(2.1.8)为例,还要考虑市场上数据的实际可得性。消费者的偏好就很难确切地用一个可观察变量来表述,对未来价格预期的数据也十分难以确定,还需要对式(2.1.8)作进一步的简化。可将其简化为
式(3.1.1)中,Qdx为目标市场对商品X的需求数量;Px为商品本身的价格;I为消费者的收入;Pr为相关商品的价格;N为目标市场上消费者的数量。
这个需求函数看似简单、直观,但收集的数据还需要进一步甄别,需要认真考虑许多因素。如目标市场就是北京市市场,那么目标市场的人口就是北京市的人口吗?是北京市的户籍人口?常住人口?还是流动人口?消费者的收入是用北京市民的收入水平来衡量?还是用全国人民的收入水平来衡量?还是两者其实是一致的呢?在实际生活中,会有大量的相关商品、替代品和互补品。它们对需求都有影响,是一种商品的价格?还是几种商品的价格?还是它们的加权平均价格?另外,市场的宏观经济趋势也应加以考虑。由此可见,即使对这样一个简单的广义需求经验函数,变量的确定、数据的甄别也是一个十分仔细、复杂和麻烦的工作。
并不是市场上可得的数据都可以直接用估计需求函数。市场上某一产品的需求量往往是许多经济变量相互作用的结果。第二章讨论的需求曲线通常假定其他条件不变,仅反映需求量与价格之间的关系。但实际上这假定几乎是不可能满足的,需求量不可能只是价格的函数。在北京市经济统计年鉴上很容易找到北京市历年鲜蛋年平均价格(以2000年为基准价格100)和年销售量,如表3.1.1所示。
表3.1.1 北京市历年鲜蛋年平均价格和年销售总量
图3.1.1是表3.1.1数据给出的需求量和价格关系的散点图,那么它就是北京市市场上鲜蛋的需求曲线吗?在这期间,人们的收入在变动,相关商品的价格在变动,北京市的人口也在变动。而且,生产成本在变,生产技术在变,供给的曲线也在移动。实际上,图3.1.2的AB曲线并不是一条需求曲线,而是一条不同时期成交量和成交价格变动的轨迹。在此期间,供给曲线发生了移动,由S1移到S2、S3、S4、…;需求曲线也发生了移动,由D1移到D2、D3、D4、…
图3.1.1 鲜蛋价格与销售总量的关系
图3.1.2 成交量与成交价格变动的轨迹
如果企业决策者误将AB曲线看作是本企业产品的需求曲线,就要发生决策性的错误。要仔细地鉴别相关联的因素,确定其中最重要的变量,权衡考虑。在企业就是产品市场价格决定者时,需求估计就相对容易一些。这时产品的价格是外生的,是由企业的经营决策者决定,而不是由市场的供求来决定。企业决策者可以制定不同的价格政策,来采集市场反映的数据。但当产品的市场价格是由供求双方决定时,情况则要更复杂,要努力寻找出至少有一个除价格以外的因素,只对供给发生影响,使供给曲线发生移动,而对需求曲线却不产生影响,这时观察到的市场成交价格和成交量,才反映了需求量与价格之间的关系。
但由于有些数据很可能不可得,因此,在确定变量时,还要借助于访问消费者、市场调查等直接方法来验证。在实际社会经济活动中,有许多变量不可观察,常常不得不用有一定相关性的可观察变量来代替不可观察变量。
二、数据收集
用回归分析法估计广义需求经验函数的第二步,是收集所确定经济变量的相应数据。收集的数据可以是同一调查对象,在不同时点(每年、每月、每周、每日),按时间顺序排列的统计数据,这被称为时间序列数据,一般是由统计部门提供,它常常反映了变化的趋势。也可以是不同调查对象(不同的企业、不同的家庭、不同的地区等)在同一时点上调查的数据,这被称为截面数据,也主要是由统计部门提供。时间序列数据和截面数据是两种最重要的数据形式,是一维数据。目前,面板数据(也称为平行数据)也被广泛应用,即时间序列上的截面数据,是二维数据。数据的收集是进行回归分析的重要基础。
在估计需求函数时,实际所用的数据源于数据的可得性。对于一些不易得到的变量数据,有时就不得不用其他相关可得数据来代替。要尽可能地避免使用难以量化的变量。有一些数据需要实际测定,是非常困难的,或者就是不可观察的,如消费者的偏好,通常就假定在调查期间消费者的偏好是不变的,而在综合考虑时,则将偏好作为外生变量加以补充考虑。
数据的质量取决于数据的完整性、准确性、可比性、一致性。完整性是经济现象本身应该具备的特征,所有变量都必须得到同样容量的观察值。但实际上,“遗失数据”的现象是常常发生的,尤其是在我国经济体制处于转轨的过程中,常常“遗失”掉很多数据。数据的准确性是估计准确的前提,准确性的关键在于数据的统计口径要符合所要估计需求函数的需要。可比性通常是指数据的统计口径,人们容易得到的经济统计数据一般可比性都比较差,必须要进行数据处理。一致性是指所得数据样本与母本的一致性,在现实中常常很难实现真正随机抽取样本,违反一致性的情况也经常发生。
数据的收集和整理,在需求函数估计中是最为费力、费时的工作,是对需求函数的可靠性影响最大的工作,也是最重要、最艰苦的基础性工作。而且,在整个需求函数估计的过程中还需要反复进行,而不是数据一次性收集完成后就可以一劳永逸了。
三、需求函数形式的确定
第三步工作是建立模型。确定需求函数的形式,简单而实用是确定经验需求函数形式的原则。线性函数是最简单的经验需求函数,式(3.1.1)可表达成下面的形式:
系数a就是要估计的参数,它表明需求量随着自变量的变动而变动的关系。a0是常数,它是在需求轴上的截距,a1是价格变化1单位所引起需求量的变化,a1=ΔQ/ΔP,一般来说,它是负值。a2是消费者收入变化1单位所引起需求量的变化,a2=ΔQ/ΔI,对于正常品来说,它是正值;对于低档品来说,它是负值。a3是相关产品价格变化1单位所引起需求量的变化,a3=ΔQ/ΔPr,对于替代品来说,它是正值;对于互补品来说,它是负值。a4是目标市场人数的变化所引起需求量的变化,a4=ΔQ/ΔN。有了线性需求函数,就很容易计算需求价格弹性、需求收入弹性以及需求交叉价格弹性等。当然,线性函数的需求弹性大小随着需求量的变动会发生变化,各变量之间也互不相关,有时需要用非线性需求函数。
最常用的非线性需求函数是对数—线性形式,它的一般幂函数形式为
幂函数形式更好地反映了自变量对需求量的边际影响,它表明任何一个自变量对需求的边际影响,既取决于自变量本身的值,又取决于需求函数中其他变量的值,体现了变量之间的相关性,这也比较符合实际。
通常在所考察的数据范围内,自变量的指数bi常被看作常量。从数学上不难证明,某自变量的指数,在数值上正好等于该自变量的需求点弹性,如式(3.1.3)中的b1是需求价格点弹性,b2是需求收入点弹性,而b3是需求交叉价格点弹性。问题是幂函数计算比较复杂,好在只要对式(3.1.3)两边同时取对数,幂函数形式就转换成对数—线性函数的形式:
有了式(3.1.4),就可以像线性函数一样来进行处理了。在需求弹性基本不变或变化不大时,或者是所有变量仅在一个不大的范围内变化时,用对数—线性函数形式是比较好的。
还有许多可能的函数形式可以供我们选择,如耐用消费品模型、存量饱和模型、新产品周期模型、多产品模型等。由于这些函数形式已经超出了本课程需要讨论的范畴,在此就不再一一讨论了。函数形式的确定,或者说模型的建立,实际上已经是给研究对象确定了主观假设前提,主观假设前提是否符合研究对象的客观事实,常常需要审慎处理,反复检验。
四、回归分析
最小二乘法(ordinary least square,OLS)是应用最多的参数估计的回归分析方法,也是其他估计方法的基础。这里要用最小二乘法将上面建立的经济模型的未知参数估计出来。
例如,某公司在不同的地区投放了广告,目的是研究投放的广告量和销售量有没有什么关系。表3.1.2是收集到的在不同地区的广告投放量和销售量的观察数据,为简单起见,都用了归一化单位。
表3.1.2 广告投放量与销售量的观察数据
图3.1.3 广告投放量与销售量关系的散点图
与表3.1.2相对应的数据,其散点图如图3.1.3所示。可以看到一个趋势,当广告的投放量增加时,市场的销售量也相应增加。我们可以估计产品的销售量是广告投放量的函数,最简单的方法就是用线性函数来描述。
如
用线性函数代表的一条拟合直线来表示广告投放量与销售量之间的关系。X是广告投放量,Y是由模型线性方程给出的相应的销售量。
我们希望这条拟合直线从样本的各观察值中间穿过。而所谓中间,是指各观察值到拟合直线在Y轴方向的距离偏差和为零。各样本点的观察值为
式(3.1.6)中,i为不同的地区;Xi为不同地区的广告投放量;Yi为相应地区实际观察到的产品销售量;ei为在不同广告投放量下,实际观察到的销售量和模型解释的销售量之间的偏差。
寻找一组参数a和b,希望距离的正负偏差和为零,即。但满足距离的偏差和为零的直线可以有无数条,还要满足距离偏差的平方和,即最小,这样的直线只有一条。平方和最小才能从总体上反映模型函数和样本的接近程度,这正是最小二乘法的原则。最小二乘法估计的参数就是要找的函数参数。参数的计算有较复杂的过程,也有相当大的计算工作量,好在计算机的软件已经被普遍使用,微软的Excel软件可以迅速得出结果。只要事前将相应数据输入Excel表中,再在指定输出结果区域,输入“=linest(a1:a9,b1:b9,1,1)”。“=linest”是请计算机做最小二乘法的指令;“a1:a9”是指应变量实际存放的区域,这里指销售量存放的区域;“b1:b9”是指相应的变量数据实际存放的区域,如果是多个变量的话,也是指所有变量实际存放的区域,这里是指广告投放量存放的区域;“,1,1”是指定输出格式的需要,结果将按指定格式输出。在完成输入指令后,将计算机上的Ctrl、Shift、Enter三个键同时按下,就得出了表3.1.3的结果。
表3.1.3 销售量与广告投放量的计算结果
表3.1.3中第一行的第一列数字就是最后一个变量的参数,第二列数字就是倒数第二个变量的参数,其余依次类推。这里只有一个变量,第一行第一列的数字4就是式(3.1.5)中的b。而最后一列数字是常数项的参数,即式(3.1.5)中的a,常数项的参数常常没有实际经济意义。得到销售量是广告投放量的估计函数:
五、统计检验与经济检验
通过回归分析得到经验需求函数后,还要通过统计检验和经济检验。统计检验是暂时抛开模型的经济内涵,作为一个数学问题,是否满足数学理论与方法上的要求。主要是变量的显著性检验、模型的拟合度检验和模型的显著性检验(1)。
变量的显著性检验是检验变量对被解释的变量的影响是否显著,以决定是否将变量继续保留在模型中。若影响并不显著,就应当将其剔除,以建立更加简单的模型。如果变量对被解释变量的影响是显著的,变量前的参数应当显著不为零。在变量的显著性检验中,应用最普遍的是t检验。首先要确定一个希望达到的置信水平,希望是在多高水平下的显著,即总体参数值落在样本统计值某一区间内的概率,是95%,还是99%?不可能是100%。再根据样本的自由度,自由度是由样本个数和变量个数决定的,表3.1.3中第二列的第四行数就是自由度6。根据希望要达到的变量置信水平和自由度,查t分布表中给出的t的临界值。在置信水平为95%,自由度为6时,查到的t临界值为2.447。一般统计学书上都附有t分布表。表3.1.3中第二行给出了第一行各个参数回归估计的标准差,第一行参数的绝对值除相应的标准差,就得到该参数的t值。若t值大于那个从t分布表中查到的临界值,即通过了在所希望水平下的显著性检验。这里广告变量的估计参数4,除回归估计的标准差为0.577 35,得到广告参数的t值为6.928,大于置信水平为95%,自由度为6时,t临界值为2.447,说明通过了在95%置信水平上的显著性检验。显然,当希望的置信水平越高,从t分布表中查得的t值也就越大,要能通过显著性检验的条件也就越苛刻。在实际问题中,不同变量的t值可能会相差很大,显著性水平不高的变量是否都需要剔除,还要看该变量在模型中的作用。
模型的拟合度检验是检验模型对样本观察值的拟合程度。最小二乘法所保证满足最小的那条直线,还并不能说明这条直线对样本拟合的好坏。表3.1.3中第一列第三行数是R2值,被称为拟合系数,它反映了模型对观察值的拟合程度。当所有的观察值正好都落在模型给出的直线上时,R2等于1,表示100%的完全拟合。当然,这种现象几乎不可能发生,R2越接近于1,说明模型的拟合程度越高。R2的值说明了变量在多大程度解释了应变量的变化。表3.1.3中R2说明了广告投放量的变化在88.9%的程度上解释了销售量的变化。对于R2多大才算模型通过了检验,也没有绝对的标准,要视具体情况而定,取决于人们希望要达到多大的准确性。
模型的显著性检验是在对模型中被解释变量和解释变量之间的线性关系是否显著成立作出判断。F检验是应用最普遍的检验,在表3.1.3中第一列第四行的数就是给出的F检验的F值48。它从整体上检验模型参数是否显著不为零,来说明线性关系是否显著成立。同样,在一个希望达到的置信水平下,再根据样本给出的自由度,通过F分布表来查找F的一个临界值。在一般统计学书上也附有F分布表。回归分析结果表3.1.3中得到的F值,若大于查表所得到的F临界值,就说明通过了模型的F检验。
这里如果置信水平仍为95%,变量个数(销售量和广告投放量2个变量)减1为分母自由度1,采集的样本数8减变量个数2为分子自由度6时,F表上可查到的临界值是5.99。表3.1.3的F值48大于临界值5.99,即通过了模型的F检验。
当然还有其他统计检验,这里就不再进一步讨论。
只要以上的统计检验有一个不能通过,就需要对确定的变量、收集的数据、函数形式等重新加以审视,或是还有重要变量的遗漏,或是数据有重大失真,或是函数的形式不当等。需重新确定变量,收集数据,建立模型,再利用计算机做最小二乘法进行回归分析。当然,结果还是要进行统计检验,直到所有统计检验都通过为止。
需求函数估计的回归分析在抛开经济内涵完成统计检验以后,还要回到经济内涵进行经济检验。主要检验模型参数估计量在经济意义上的合理性,主要方法是将模型参数的估计量与预先拟定的理论期望值进行比较,包括参数估计量的符号、大小,相互之间的关系是否合理。如对于一个正常商品而言,它的需求价格弹性应当为负值,若回归分析的结果为正值,则说明不能通过经济检验。经济检验是一项最基本的检验,经济意义不合理,不管其他方面的质量多么高,模型都没有实际价值。因此就需要重新审视确定的变量、收集的数据、函数的形式等。
这说明需求函数的估计分析必须要建立在变量确定、数据收集、建立模型、参数分析的全过程反复修改的基础上,直到能得到一个既能有较好的经济学意义解释,又能较好地反映历史上已经发生的诸变量之间关系的数学模型。忽视任何一方都是不对的。因此,需求函数能比较准确地估计既需要较好地掌握数学分析工具,又需要有较好的经济学理论知识和对所研究的经济现象有较透彻的分析认识。
专栏3-1
张老板的牛肉拉面铺
张老板在某小镇上开了一家牛肉拉面铺,生意还算兴隆。在小镇还有两家快餐店:一家馄饨店和一家包子铺,与其形成了竞争。张老板是一个有心人,他仔细地记录了过去24个月中自己店里每个月平均每天的牛肉拉面的销量和价格,尽管不知道馄饨店与包子铺的销量,但他也记录下了它们每月的平均价格。并从当地的统计资料上,看到居民每月人均收入和价格指数的变动,而小镇的人口数大体保持不变。表1给出了这些数据,居民收入和食品价格已经剔除了价格指数变动的因素。表中Q是一个月里平均每天牛肉拉面销售的碗数,Pn是每碗牛肉拉面的价格(单位:元/碗),I是当地居民月人均收入(单位:元/月),Pd是馄饨的价格(单位:元/碗),Ps是每个包子的价格(单位:元/个)。
表1 小镇快餐店的数据
可以设想,张老板牛肉拉面铺的需求量不仅受其价格和居民收入的影响,也受其竞争对手的价格影响。需求函数可以表达为
利用最小二乘法回归分析可以得到计算结果(表2)。
表2 快餐需求计算结果
在样本自由度为19、置信水平为80%时,查t分布表得到t的临界值为1.328。而由回归计算得到的t值分别为
|tn|=151.843/16.618=9.137, |tI|=0.095 2/0.066 1=1.440,
|td|=186.861 8/59.01=3.167, |ts|=76.076/43.555=1.747
计算得出的所有t值都大于临界值,四个解释变量都通过了显著性检验。常数项t=1.239,小于临界值,但它并没有实际经济意义。也可以看到,人均收入变量和包子价格变量的显著性并不高,如果置信水平希望达到95%,t分布表中查到t的临界值为2.101,那么它们就不能通过显著性检验,说明它们对牛肉拉面的需求量的变动有影响,但并不大。而牛肉拉面价格和馄饨价格这两个变量有着更高的显著性,对牛肉拉面需求量的变动有更大的影响。
表2中,R2的值为0.897 48,说明四个变量已经在90%的程度上解释了牛肉拉面需求的变化。模型的拟合度也通过了检验。
同样,在F分布表中也可以查到,在分母自由度为4,分子自由度为19,置信水平为95%时,F临界值为2.9,表2中的F值为41.58,也大于临界值4.5。模型通过F检验。
牛肉拉面价格变量的参数为负,说明随着牛肉拉面价格上升,需求量会下降,符合需求一般规则;人均收入变量的参数为正,说明随着人均收入上升,牛肉拉面的需求量会上升,牛肉拉面对人们来说是正常品;馄饨和包子价格变量的参数也都为正,说明两者都是牛肉拉面的替代品。通过了经济检验。该小镇的牛肉拉面经验需求函数可表达为
由式(2)可知,用过去24个月的平均值作为典型值,Pn=9.05,I=2 619.75,Pd=10.12,Ps=1.15,代入方程(2),得到牛肉拉面的销量为1 731.53。可以进一步计算需求价格弹性、需求收入弹性和需求交叉价格弹性。
Edp=-151.843(9.05/1 731.53)=-0.79
EI=0.095 244(2 619.75/1 731.53)=0.144
Edn=186.861 8(10.12/1 731.53)=1.092
Esn=78.071 9(1.15/1 731.53)=0.052
计算的结果表明:从需求价格弹性来看,牛肉拉面缺乏需求价格弹性,是属于生活必需品;需求的收入弹性大于零,但小于1,说明牛肉拉面是正常品,但弹性不大,随着人们的收入变化只略有变动;尽管馄饨和包子都是牛肉拉面的替代品,需求交叉价格弹性都大于零,但馄饨对牛肉拉面的替代作用要大得多。馄饨铺是其主要竞争对手,虽然本身缺乏弹性,似乎可以适当涨点价,但由于馄饨的显著替代作用,在馄饨店价格不变的情况下,不宜单独涨价,还是以维持原价为好。
对数据还可以用对数—线性函数(3)的形式来估计,这就假定在此区域,需求弹性不变。回归计算结果如表3所示。
表3 对数—线性模型计算结果
得到
结果与式(2)相近,同样也能通过统计检验和经济检验,对各种需求弹性的估计也很接近。但这并不等于在所有情况下,两种模型的结果都必然相近。