1.4 研究方法与数据来源
1.4.1 研究方法
本书主要采取理论研究与实证研究相结合的方法,在理论研究的基础上,利用家庭微观调查数据,重点进行微观实证研究。
1.理论研究方法
在理论研究上,首先对研究涉及的相关概念进行界定;其次,剖析家庭金融资产形成的原因,从定性的角度对影响家庭金融资产选择的因素进行分析。值得注意的是,如果没有高质量的家庭金融调查数据作为支撑,纯理论的定性分析必然存在一定的缺陷。因为理论分析中影响家庭金融资产选择的因素众多,但并不是所有的因素都适合我国居民家庭金融资产选择的实际,这就需要在建模过程中剔除掉部分变量,同时增加一些符合中国国情的因素。因此,理论分析只是为后续的实证分析做基础性的铺垫工作。
2.实证研究方法
本书分别对城镇居民家庭金融市场参与、家庭金融资产持有量和配置结构的影响因素进行实证研究,并检验了社会网络和财富分层对居民家庭金融资产选择的影响及其作用机制。
需要特别注意的是,在家庭金融资产选择的实证研究中,早期文献一般采用简单的多元线性回归模型,或者是以某一个变量进行分组,分析分组变量对家庭金融资产选择的影响,很少考虑因变量分布特点和变量的内生性问题。例如,家庭金融市场参与、家庭金融资产持有量与配置结构作为因变量,都存在取值受限问题,直接采用多元线性回归得到的结论将是有偏的。本书使用的家庭金融调查数据中,家庭持有的定期存款余额、股票账户余额、股票市值、债券面值、基金市值等数据在100万元以上均出现右侧截尾的情况。与此同时,很多家庭在某类金融资产上的持有量为0,出现了左侧截尾的情况。虽然CHFS在2011年和2013年的调查中有全部的观测数据,但对于某些观测数据,被解释变量被压缩在了一个点上。此时,被解释变量的概率分布就变成由一个离散点与一个连续分布所组成的混合分布。在这种情况下,如果仍然使用传统的OLS方法进行估计,则无论使用的是整个样本,还是去掉离散点后的子样本,都无法得到一致的估计。因此,在模型选择上,普通的多元线性模型在处理受限因变量数据时存在缺陷,而二元离散模型和缩尾模型可以有效地解决这些问题。此外,本书在模型构建过程中考虑了核心变量可能的内生性问题。综合来看,本书选取Logit模型、Probit模型、Tobit模型、IVProbit模型和IVTobit模型进行估计,以获得比以往研究更加准确的估计结果。
除了理论和实证研究方法,本书还采用比较分析方法,对国内外家庭金融资产选择的文献进行比较分析,发现国内外研究存在的不足;在研究内容上采用系统分析方法,从家庭金融资产的概念界定到家庭金融市场参与率、家庭资产数量与结构现状的分析,再到影响参与率、数量和结构的各种因素的经验研究,最后提出针对性的政策建议,在内容上形成一个相互联系的系统。
1.4.2 数据来源
家庭金融资产选择的核心问题是家庭如何在不确定条件下通过金融资产配置实现其财富的最大化。家庭金融领域的实证研究离不开高质量的家庭微观数据库,遗憾的是,由于我国长期缺乏家庭金融的微观调查数据,导致对家庭金融资产选择行为的实证研究很少,为了弥补数据上的缺陷,西南财经大学中国家庭金融调查与研究中心计划在全国范围内以家庭为单位进行持续调查,为学术研究和政策制定建立一个真实、客观、有效的家庭微观金融数据库。本书所使用的数据如不作特别说明,均来自西南财经大学中国家庭金融调查与研究中心2011年和2013年进行的两轮全国性调查。该调查通过收集家庭的资产与负债、收入与支出、保险与保障、人口与就业等方面的信息,全面追踪家庭的动态金融行为。目前,调查已完成2011年、2013年和2015年三轮数据的采集和清理工作,调查家庭样本分别为8438个、28141个和37289个(1)。
Campbell(2006)提出了评判数据库质量的五大标准:①数据的代表性;②资产类别的完备性;③资产的具体性;④数据的准确性;⑤数据的持续性。接下来,将基于Campbell提出的数据质量评估标准介绍CHFS数据库。
1.数据的代表性
数据的代表性是指数据样本具有人口整体分布的代表性,尤其是年龄和财富,因为很多金融行为都与其息息相关。抽样设计是保证数据代表性的关键步骤。CHFS采用了整体抽样和末端抽样相结合的方法。在整体抽样上,采用分层、分阶段、与人口规模成比例(PPS)的方法。以2011年的抽样为例,初级抽样单元(PSU)为全国除西藏、新疆、内蒙古、宁夏、福建、海南和港澳台地区之外的25个省(区、市),2585个县(含县、县级市、区,以下统称县)。
首先,从PSU中抽取县,将PSU按照人均GDP分为10层,在每层中按照PPS抽样方法抽取8个县,得到80个县;其次,在每个被抽中的县内,按照非农业人口比重随机抽取4个村(居)委会;最后,在每个被抽中的村(居)委会中,按照社区住房价格对高房价地区进行重点抽样,确定家庭户数(20~50个)。在每个被抽中的家庭中,对符合条件的受访者进行访问,得到具有全国代表性的8438个家庭样本和29324个个人样本。
2013年为了得到省级代表性,在2011年抽样的基础上遵循PPS原则扩大抽样框,最终涵盖除西藏、新疆和港澳台地区之外的29个省(区、市)、262个县和1048个村(居)委会,共计2814个家庭样本和97916个个人样本。2015年为了得到副省级代表性,在2013年的基础上继续扩大抽样框,最终涵盖除西藏、新疆和港澳台地区之外的29个省(区、市)、363个县和1439个村(居)委会,共计37289个家庭样本和125248个个人样本。
末端抽样是确定住户具体地址的抽样,基于绘图员的绘图工作生成的住户清单列表并采用等距抽样的方法进行,抽样间距等于住户清单总数除以计划抽取户数。首先,确定一个随机起点,随机起点所指示的住户为第一个被抽中的住户;其次,第一个被抽中的住户加上抽样间距,即为第二个被抽中的住户,依此类推,直至抽满计划抽取的户数。另外,由于每户家庭被抽取的概率不同,在推断总体的时候,根据每个县被抽中的概率P1,每个村(居)委会在县里被抽中的概率P2,每个家庭在村(居)委会被抽中的概率P3,计算每户家庭代表的家庭数量为swgt=l/(P1P2P3),即每户家庭的抽样权重。
CHFS数据在人口年龄结构和人口统计学特征等方面都与国家统计局公布的数据接近,且CHFS数据的抽样误差非常小。表1-1显示,在人口年龄结构方面,中国家庭金融调查数据与国家统计局数据2010年人口普查结果非常接近。
表1-1 CHFS 2011年调查与2010年人口普查在人口年龄分布上的对比(%)
数据来源:根据CHFS 2011年调查和国家统计局2010年人口普查结果整理而得。
在人口统计学特征方面,表1-2显示,中国家庭金融调查各项指标与国家统计局数据2010年人口普查的结果也都比较接近,表明CHFS抽样调查数据具有很好的代表性(甘犁等,2012)。
表1-2 CHFS 2011年调查与2010年人口普查在人口统计学特征上的对比
数据来源:根据CHFS 2011年调查和国家统计局2010年人口普查结果整理而得。
2.资产类别的完备性
资产类别的完备性是指获取每个家庭的包含总财富及财富的各项分类数据。CHFS在调查家庭的资产状况时,总资产既包括家庭农业、工商业资产、房屋资产、汽车资产、耐用品和奢侈品等非金融资产,也包括现金、存款、股票、债券、基金、金融理财、衍生品、外币、贵金属等金融资产。对于每一类资产,受访者都会被询问是否拥有,如果有则继续询问更多的信息。例如:房产信息包括是否租房、是否拥有房产、产权性质、购买成本、当前估值、居住面积、是否计划购房等;股票信息包括是否拥有股票账户、是否交易、投入资金规模、炒股年限、盈亏情况等。对于股票、基金或银行理财这些主要的金融资产类别,如果受访者未持有,还会被问及未持有的原因。此外,为了尽量不遗漏受访家庭持有的所有资产,除了逐一回答问卷标明的资产类别,还会被询问是否拥有其他金融资产或非金融资产。CHFS数据具有较好的资产类别完备性,为学者研究家庭大类资产配置问题提供了便利。
3.资产的具体性
资产的具体性是指资产类别的划分要足够细致,每类资产理应包含每个家庭持有的所有具体资产,从而可分析家庭资产的多元化配置问题。最理想的情况是能够了解到家庭在每类资产下的具体配置,但极少有数据能够做到这一点,尤其是抽样调查。对于房产,CHFS问卷询问了家庭持有的房产套数及价值,并且会问及前三套房产的具体信息;对于股票,问卷询问了家庭持有的股票数量及价值等基本信息,但尚不清楚这些股票的代码、类别、仓位等具体信息;对于基金,问卷询问了家庭持有基金的种类、投资规模、盈利情况等基本信息,但没有这些基金的配置和盈利情况。扩展数据库信息的一种办法是在原有调查问卷的基础上大幅增加有关股票、基金等金融资产配置的详细问题,但这样的执行成本较高,并且会导致受访户疲惫,进而影响数据质量;另一种办法是从证券交易所获得受访者的投资交易数据,但受限于数据的敏感性和安全性,通常难以获得。
4.数据的准确性
为了获取高质量的数据,中国家庭金融研究中心在校内招募具有金融学和经济学专业背景的访员,在正式调研前对所有访员进行针对性的问卷培训,确保访员能够准确理解问卷内容。在入户调查过程中,为了实时了解调研质量,调查中心会对调研员的访问情况进行抽样检查。在面访调查结束后,为了降低调查过程中产生的误差,一旦对访员获得的信息有疑问,还会对受访户进行电话回访,确认调查信息的准确性。由于在调查中依托专业的、训练有素的组织管理团队,CHFS在调查实施的前期、中期、后期都已形成了成熟的操作流程,从抽样设计,到调查执行,再到质量控制等方面都遵循了规范、客观、公正的原则,充分保证了数据质量。
调查数据质量依赖于受访户接受调查的意愿和回答问题的准确性。国际上通用的计算拒访率的公式为:拒访率=拒访户数量/(拒访户数量+接受访问户数量)。一般而言,城市地区比农村地区拒访率高。表1-3列出了CHFS在2011—2015年三轮调查中的拒访率。与其他可公开获得的国内外调查CHFS的拒访率处于很低的水平。
表1-3 CHFS 2011—2015年三轮调查的拒访率(%)
数据来源:https://chfs.swufe.edu.cn/yanjiuchengguo.aspx(CHFS官方网站)。
即使愿意接受访问,受访者也可能会拒绝回答某些问题。例如,在1995年的SCF数据中,64%的股票持有者告知了股票投资的具体额度,21%告知了股票投资额度的范围,15%根本没有提供任何信息(Campbell,2006)。对于拒绝回答的情况,一种办法是让受访户选择回答资产规模的范围,以及通过追问方式缩小回答的规模范围(Juster and Smith,1997;Juster,Smith and Stafford,1999)。CHFS也采用这种方法,有效地提高了数据质量。例如,在询问家庭持有的所有存款市值时,如果受访户回答的额度为整数值,访员会采取中位数法获取更准确的数据;如果受访户拒绝回答,访员则会给出若干范围的选项供其选择。2015年CHFS数据显示,85%的受访户回答了具体额度,9%回答了范围,只有6%没有提供任何信息。
5.数据的持续性
数据的持续性是数据库要持续追踪调查家庭,从而获得面板数据,因为面板数据要好于截面数据,能够控制不随家庭变化的异质性,从而获得更加可靠的实证研究结果。CHFS是追踪调查数据,每轮调查除了老样本还有新扩样本。2011年CHFS家庭样本8438户,其中农村样本3244户,城镇样本5193户;2013年家庭样本总量为28141户,追踪到2011年的老样本为6846户,其中农村样本2406户,城镇样本4440户;2015年CHFS家庭样本共有37288户,追踪到2013年的老样本数为21775户,其中农村样本8027户,城镇样本13748户;连续追踪2011年和2013年两轮调查的样本数为5753户,其中农村样本2176户,城镇样本3577户。这些数据可以帮助我们更好地掌握家庭资产配置随时间流逝而出现的调整和变化。
综上所述,CHFS抽样设计的规范性、调查执行的标准性、质量控制的严格性保障了其数据的有效性和高质性,也保障了本书研究的客观性和公正性。CHFS以家庭为单位进行数据的采集,识别家庭的原则为共享收入或共担支出。针对每个家庭,CHFS都详细询问了每一个家庭成员的人口特征、工作状况和保险保障情况,也详细询问了家庭每一类的资产、负债、收入、支出状况,这为本书分析中国家庭资产投资组合的风险提供了强有力的支撑。对CHFS数据的详细介绍参见甘犁(2012)和《中国家庭金融调查报告•2014》。
本书试图分析影响我国城镇居民家庭金融资产选择的因素及其可能的作用机制,由于以下3个原因,本书更适合用截面数据进行分析:①第4章、第5章和第6章试图分析家庭特征变量和户主特征变量对家庭金融资产选择的影响,这些变量在家庭层面具有稳定性;②第7章试图分析社会网络对家庭金融资产选择的影响,社会网络变量在短期内不太可能发生太大的变化(周晔馨,2012;周广肃等,2014);③第8章试图分析财富分层对民间借贷的影响是否存在差异,而非考虑财富变化的影响,即使短期内家庭财富有波动,也并不能改变家庭的财富地位。因此本书的实证分析部分更适合用截面数据,而不是面板数据。为了充分利用2011年和2013年的数据,我们在描述性统计部分做了两个年度上的对比分析,在实证检验部分利用两年的数据进行稳健性检验。
本书将样本分别控制在城镇地区主要出于以下两方面考虑:一是中国农村和城市的家庭结构和金融资产选择行为差异较大。如在农村样本中,绝大部分家庭从事农业生产,只有少数经营自主工商业。城市家庭中大部分为工薪阶层,仅有少数家庭从事自营工商业。二是金融投资环境上的差异。相对于农户而言,城市家庭有房屋产权,可以用住房公积金、抵押贷款等融资方式进行投资。同时,城市家庭在医疗保险和社会保障等方面都和农户有很大的差别。为了避免因城乡差异所产生的异质性而影响估计结果,本书着重分析社会资本对城镇居民家庭金融资产选择的影响,剔除重要变量遗失和异常值后,2011年的城镇居民家庭样本量为4942户,2013年的为18532户。由于2013年CHFS扩大了样本规模,变量具有更小的方差,数据的稳定性和代表性更好。