中国政府统计数据质量管理问题研究
上QQ阅读APP看书,第一时间看更新

第一节 我国政府统计数据的生成流程

政府统计是在政府的主导下,根据一定的统计理论与方法,借助政府统计组织系统,收集反映国民经济和社会发展基本情况的数据,并在此基础上进行处理与分析,提供相应的统计信息和咨询服务等系列活动的总称。政府统计数据则是官方统计活动的主要成果。

根据与统计数据直接生产环节的联系,可以将我国政府统计数据的整体生成流程划分为以下3个阶段:“统计设计(事前阶段)——统计数据的收集与处理(事中阶段)——统计数据的评估、发布与修订(事后阶段)”。

一 事前阶段:统计设计

事前阶段是指尚未开始具体收集和处理统计数据的阶段。这一阶段又被称为统计设计阶段。

统计设计是一项统计活动的开端,是对统计数据生产的事先安排。其主要工作内容如图3-1所示。事前阶段的工作内容主要是围绕以下4个问题展开的,即“需要什么样的统计指标”“编制这些指标需要哪些数据”“如何获取这些数据”“如何处理与分析这些数据”。

图3-1 事前阶段的工作内容

(一)统计指标的选取与设计

统计指标是反映客观总体数量特征的概念和数值。统计指标的选取与设计是统计设计阶段最重要的工作。要根据所要研究问题的性质,在相关实质性学科理论的指导下,给出统计指标的统一定义、计算口径、计算方法以及相应的分类标准。科学地选取和设计统计指标及其分类体系是保证统计数据质量的基础。

(二)数据来源与涵盖范围设计

原始数据是编制统计指标的第一手资料。选择与所要编制的指标相适应的原始数据并合理地确定其来源渠道与涵盖的范围,对于开展后续的工作有重要意义。例如,如果确定了要从生产、分配和使用的角度去计算GDP指标,就必须明确要从哪些渠道去获得所需要的相应原始资料及其所涵盖的具体范围。否则,就不可能计算出符合要求的GDP指标。

在考虑数据的来源渠道与涵盖范围时,除了要满足统计部门编制统计指标的需要外,还要考虑收集原始数据的成本、开展调查所需的基础条件(人员、设备等)等诸多因素。

(三)统计调查设计

统计调查是收集原始数据的基本方法。目前我国的统计实践中常用的统计调查方式主要有定期统计报表制度、普查、抽样调查和重点调查孔杏、郑宁国:《统计方法与应用》,中国水利水电出版社2010年版。。不同的调查方式有不同的特点。所谓调查设计,就是根据实际情况和所要收集资料的特点,事先给出具体的调查方式,制定收集数据的基本方案。

(四)统计处理与分析设计

调查获得的原始数据必须经过必要的处理与分析才能生成对外发布的统计数据。在统计设计阶段,也有必要对数据处理与分析的基本方法以及工作进度做出事先的计划与安排。

二 事中阶段:统计数据的收集与处理

事中阶段是指从开始收集原始数据直到报告数据计算完毕之间的统计数据直接生产阶段。

事中阶段的主要工作内容如图3-2所示。

图3-2 事中阶段的工作内容

(一)统计调查的实施

根据统计设计的调查方案开展统计调查,从而获得原始数据。原始数据也可称为“源数据”,它是从被调查对象那里获取的第一手统计资料,是计算各种统计指标的基础和依据。最终发表的政府统计指标数据的质量,很大程度上取决于所获得的原始数据的质量。

(二)原始数据的录入与审查

数据录入是将各种原始数据和编码导入计算机并进行存储的操作。数据录入的整体流程包括“编码—预审—录入—编审”4个环节。具体工作内容如图3-3所示。

图3-3 原始数据录入的质量控制环节及措施

注:根据李强、王吉利《统计基础知识与统计实务》(中国统计出版社2009年版)整理。

其中,数据编码主要针对调查资料中的文字信息或“圈填信息”,编码的正确与否会直接影响到此类数据信息的后续处理。数据预审是原始数据录入前的一个质量控制环节,录入数据之前要进行逻辑检查、合法性检查和平衡关系检查,通过这些检查考察原始数据是否完整、是否规范清晰、是否填写正确等。数据录入包括人工录入和光电录入光电录入主要是指近些年来发展起来的光电识别技术在统计调查中的应用,比如手写字符识别技术和标志识别技术。。数据编审主要是指对已完成录入的原始数据再做必要的审查,主要是对所获原始数据的基本数据特征进行分析,了解可能存在的缺失值情况、极端值情况和测度误差等,为数据的缺失填补、异常值识别与处理等做好准备。

(三)原始数据的处理

(1)编码匹配问题及其处理要点

对原始数据的处理,首先是对相应的数据进行编码和匹配。原始数据通常由调查对象(报表填报对象)的一系列定性、定量属性构成,对于单一时点的数据而言,给定调查单位会涉及该单位相关特征的多个数据,除了对部分特征数据进行编码处理外,匹配处理要有助于获取反映特定用途的数据序列聂辉华、江艇、杨汝岱:《中国工业企业数据库的使用现状和潜在问题》,《世界经济》2012年第5期。

(2)数据缺失问题及其处理

所谓数据缺失,指的是无法获得部分需要的数据。产生数据缺失的原因主要有无回答、无效回答或调查遗漏等。其具体的类型为某一调查单位的整体缺失(个案缺失)与某一调查单位的部分项目缺失(项目缺失)。对于已发生的数据缺失,要采取相应的补救措施,尽量避免对报告数据的质量产生不利的影响金勇进:《统计数据的缺失处理》,中国统计出版社2009年版。

(3)异常值问题及其处理

异常值也称异常数据或离群值,是指个别统计观测值明显偏离其所属总体的其余观测值周建:《宏观经济统计数据诊断——理论、方法及其应用》,清华大学出版社2005年版。。通过一次统计调查(含报表)获取的原始数据通常为一个时点的数据。对原始数据的异常值识别与处理更多的是基于可比的截面数据进行分析。必须指出,异常值并非都是存在质量问题的数据,只有那些在统计上表现为异常,且无法利用经济现实进行解释的才是真正有质量问题的数据。因此,利用统计方法识别出异常值后,还需要结合相应的经济理论、现实状况等来进行综合判断。

(四)报告数据的核算(估算)

即按照设计阶段给出的核算(估算)方案,利用经过分析和处理的原始数据去计算和编制相关可对外发布的统计指标(又称报告数据)。

三 事后阶段:统计数据的评估、发布与修订

事后阶段是指有关统计指标已经计算出来后的阶段。这一阶段的主要工作包括以下3个方面。

(一)数据的评估

有关统计指标计算出来之后,需要先对其进行必要的评估。数据的评估总体上可以分为两个层次,一是统计数据准确性评价;二是统计数据质量的多维度综合评价。数据的评估不仅需要综合利用各种方法,而且需要对有关社会经济状况和统计工作有比较清楚的认识与把握。

(二)数据的发布

只有经过评估,认为符合基本质量要求的数据,才能按照数据公布的标准正式向社会公众发布。对于一些重要的国民经济指标,为了更好地兼顾准确性与及时性的要求,通常还会有多次发布。例如,我国对于GDP数据,在各季度初会根据可获得的有关资料对上季度GDP做比较粗略的估算,及时向社会发布,在年度详细资料出来后会根据详细的年度资料去计算全年的GDP。每隔几年,还会利用更为全面详尽的经济普查资料对GDP进行计算,并据此对以往年份的GDP数据进行必要的修订,公布在统计年鉴上。

(三)报告数据的修订

统计数据发布之后,如果发现其存在比较严重的质量问题,或者是统计指标的计算口径和所利用的基础资料发生了较大变化,都有必要对原来的数据进行修订。与调查获得的原始数据相比,最终发布的报告数据多数具有小样本特征,对其所做的修订大多是针对时间序列数据进行的。

现实中,官方统计机构对报告数据的修订更多是从用户需求的角度出发,为政府的宏观调控、企业的经营决策和社会公众提供必要的数据支持。修订不仅可以使统计数据的准确性得到提高,而且可以提供更加具有可比性的长期时间序列。

报告数据的修订可分为两种类型:第一种是对存在质量问题的异常数据和缺失值进行修订。这种修订只对存在问题的个别数据进行相应处理,或者利用一定的方法填补缺失值,对其他数据不做变更。第二种是对全部数据进行重估。这种修订通常适用于那些存在较大疑问,且已具备重估条件的统计指标。