第一节 统计数据质量基本概念研究
一 统计数据质量概念的演变
为了进一步开展统计数据质量管理问题的研究,有必要对统计数据质量管理的基本概念及其内涵给出科学的界定。表2-1为国内外统计机构和一些学者给出的关于统计数据质量的几种代表性定义。
表2-1 统计数据质量的代表性定义
从以往关于统计数据质量管理的基本概念及其内涵的研究成果看,对于统计数据质量的概念,一般只是简单地罗列出几种性质,并未做详细的论述,特别是没有很好地梳理其相互之间的联系,这也影响到对统计数据质量管理及其控制问题的进一步深入研究。为此,以下我们将在参考有关研究成果的基础上,先对统计数据质量基本概念的演变做扼要的回顾,在此基础上再对统计数据质量的基本内涵做系统的归纳和总结。
政府统计数据是政府统计机构所提供的社会公共产品,是人类生产活动的一种成果。因此,对其质量概念及内涵的把握,也可以借鉴一般产品质量管理的基本理论。从历史上看,产品质量管理的基本内涵随着社会的发展以及人们对产品质量要求的提高在不断拓展。一般产品质量管理内涵的演变可以分为3个阶段:第一阶段是从生产者立场出发的质量管理(即符合性质量管理),这种质量管理的内涵是以“符合”生产者提出的一定标准的程度为衡量依据的;第二阶段是从消费者立场出发的质量管理(即满意性质量),这种质量管理的内涵是以适合顾客需要的程度为衡量依据的,是从使用角度定义产品质量的,认为产品的质量是产品的“适用性”,即“产品在使用时能成功地满足顾客需要的程度”;第三阶段是从多个角度出发的质量管理(即魅力性质量),这一内涵十分广泛,既反映了产品要符合一定标准的要求,也反映了产品要满足顾客,社会(环境、卫生),员工,投资方等相关方的要求,质量评价的对象也从产品扩展到过程、体系等所有方面。与一般产品质量管理类似,统计数据质量管理的基本概念也经历了类似的三个阶段。
(一)以“准确性”为核心的统计数据质量管理
20世纪80年代以前,国际统计界基本上将统计数据质量定义为数据的准确性。关于统计数据质量管理的研究主要以提高数据准确性为基本出发点。同时,该时期的研究者主要从数理统计和抽样技术的角度,大量研究如何科学地组织调查,尽量缩小统计调查误差、控制数据质量。有的研究者通过调查方法的选择、样本代表性的优化、抽样误差的控制等保证统计数据的准确性。例如,挪威统计学家凯尔(A. N. Kiar)提出了代表性抽样方法,英国统计学家鲍莱(A. L. Bowley)对随机抽样以及非抽样误差进行了研究,汉森和赫维茨(M. H. Hansen和W. N. Hurwitz)提出了调查误差模型等。
(二)以“用户需求”为中心的统计数据质量管理
20世纪80年代以来,统计数据质量的含义被扩大,准确性已不再是衡量统计数据质量的唯一标准,满足用户需求(fitness for use或者fitness for purpose)成为学者和各国统计机构研究统计数据质量时关注的话题。1980年联合国统计司出版的《统计组织手册》对政府统计资料提出了8项要求,包括:统计工作中必须充分了解使用者进行决策和研究的需要;统计服务应针对许多使用者而不是某一类使用者;统计资料要通过指标的相互联系形成有机体系;统计资料要保持历史连续性,以系统的时间序列反映历史变动;统计资料应当及时收集、加工并公布;应当保障提供调查资料的被调查者的利益或秘密;统计机构要公正客观、不受任何偏见的影响;为了统计资料的准确性和及时性,应当有能够胜任工作的业务和行政领导。Dalenius(1983)提出统计数据质量的“测量向量”,包括统计数据的准确性、经济性、保密性、相关性、及时性、数据详细程度等。Brackstone(1999)提出统计数据质量的6个维度,包括相关性、准确性、及时性、可获得性、可解释性和一致性,并进一步描述了统计机构针对每一个维度进行管理的具体方法,提出了进行有效数据质量管理所必需的5个子系统,即用户联络系统、合作计划系统、方法及标准系统、发布系统和进展系统。Wang和Strong(1996)通过调查的方式确定了满足用户需求的数据质量的四大方面,即数据内在(固有)质量、数据环境质量、数据表现质量、数据可获得性质量,它们又被分为15个维度,即可信度、准确性、客观性、数据声誉;附加信息、相关性、及时性、完整性、数据量;可解释性、便于理解性、一致性、简洁性;可得性、安全性。
(三)“从源头到终端”的统计数据全面质量管理
2000年以来,伴随着全面质量管理理论的发展,在统计数据质量管理方面,许多国际组织和国家纷纷建立起各自的数据质量管理与评估框架,这些框架在以用户需求为中心的基础上,进一步要求政府统计机构必须具备生产高质量统计数据的各种前提条件和环境。这种管理是一种从源头到终端的全面质量管理,也即包括对统计生态环境、统计生产过程以及统计数据发布过程的全面控制和管理。如国际货币基金组织的数据质量评估框架(DQAF)除了包括统计数据质量的基本条件外,还包括对统计法律制度环境和统计工作等方面的要求,经合组织统计活动质量框架和导则(Quality Framework and Guidelines for OECD Statistical Activities)、欧洲统计系统也都强调从多个环节对统计数据进行全面质量管理的重要性等。
二 对统计数据质量概念的整理归纳与再探讨
在国际标准化组织提出的质量管理标准体系(ISO 9000: 2000)中,质量(quality)被定义为:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的程度。该体系对质量的定义包含两方面内容,一方面说明质量是综合的概念,是事物的一组特性;另一方面说明质量是满足需求或者期望的程度,质量的评估应该从需求入手。借鉴这一科学定义,我们也可以把官方统计数据质量理解为统计数据所具有的一组特性能够满足使用者需要的程度,可满足的程度越高,则统计数据的质量就越高。因此,统计数据质量具体需要涵盖哪些特性,取决于使用者对数据的要求。以往的研究者根据自己的理解给出了各种统计数据应具有的理想特性,有的甚至高达十多种。我们认为,这是不必要的,将各种性质不分主次地简单罗列,反而有可能模糊问题的本质,无助于搞好统计数据质量的管理与控制。因此很有必要对数据应具备的理想属性进行归纳。根据我们的理解,统计数据质量的概念可归纳为以下三个层次。
(一)统计数据质量内涵的基本属性
统计数据的准确性是数据质量最核心、最基本的要求。如果数据不能满足准确性,即数据不能真实反映客观发生的经济现象,那么利用这样的数据进行研究的结果就一定会产生系统的偏误,不仅失去其参考价值,而且还会误导政府、企业与社会公众。因此,只有数据在一定程度上满足准确性要求,对数据的其他性质进行评估才具有现实意义。准确性是近年来我国官方统计数据最受关注和质疑的一个方面。
所谓统计数据的准确性,指的是统计数据能够真实地反映客观事物的数量特征和数量规律的程度。准确性的实现可以从“准”和“确”两个不同的维度,也就是“真实”与“可靠”两个不同的维度加以考察。
“真实度”是指统计的结果与试图测量的现实目标之间的接近程度。提高统计数据的真实度,必须特别重视统计设计,特别是统计指标和统计方法制度的设计及其过程控制。以居民可支配收入的统计为例,首先必须在明确其理论内涵的基础上,科学地界定居民可支配收入的概念,并规定其包括的具体内容,同时还要科学地设计数据采集的具体方法。如果基本概念界定不科学,所规定的具体内容不正确,或者设计的统计调查方法不恰当,抑或存在一些不当的干扰都不可能得到真实反映居民可支配收入的数据。例如,以往在一些经济统计学著作中,研究者曾经将居民通过银行等渠道获得的贷款也作为居民的可支配收入,这样得到的就不是经济学理论上的居民可支配收入。再如,如果在进行调查和计算时直接以居民缴纳的所得税作为推算可支配收入的依据,或者未做必要说明直接向居民了解其收入,则常常会存在低报和漏报收入的现象,因此,通过这种方式求得的居民可支配收入统计数据可能会大大低于居民的真实收入。
“可靠度”是指统计数据的可信程度。可靠度的高低可用统计指标值落在一定区间的概率的大小(又称置信度)加以衡量。要想提高统计数据的可靠度,不仅要求科学地设计统计方法与制度,而且要求统计人员严格执行统计方法与制度,排除各种干扰,杜绝造假、瞒报、谎报等违规行为,减少各种调查误差,从而确保统计过程的真实可靠。
真实度和可靠度是衡量统计数据准确性的两个基本尺度,前者重点考察测量结果能否很好地说明所要研究的问题,后者则重点考察测量结果是否存在较大的调查误差,而不涉及结果本身能否正确反映客观现实。它们之间的差别在于所涉及的误差不同,可靠度测量的是指标观测值与所选定的统计指标真值之间误差的影响,真实度除了要考察上述误差影响外,还要反映由于所选定的指标事实上包含了与测量目的无关的变量所引起的系统误差。对于统计数据的准确性而言,真实度是其本质要求,而可靠度则是提高准确性不可缺少的辅助手段。为了进一步说明其中的意义和两者的关系,我们用射击过程为例,并结合图2-1来说明。为了命中目标,射手首先应明确所要射击的靶心,然后进行规定击发数量的射击,子弹平均接近靶心的程度可比喻为测量的真实度,而子弹相互接近的程度可近似看成测量的可靠度。最理想的结果是一组射击的子弹相对集中于靶心附近(如A组),这样的测量既可靠又真实,即说明测量具有良好的可靠度和真实度。如果一组射击一致落在远离靶心的某个区域(如C组),则说明测量结果虽然可靠,但是无效,这可能是由于C射手瞄错了目标而产生了系统误差。同样道理,B组表示该组测量结果不可靠但与C组比相对有效,即B射手虽然射击技术较差,但找准了靶子,所以其成绩好于C射手。而D组表示该组测量结果既不可靠又远离目标。
图2-1 真实度和可靠度的意义
引进真实度和可靠度的概念对统计数据质量的内涵进行考察,将有助于进一步开展对统计数据质量的管理与控制。如前所述,早期的数据质量评估和质量控制,主要集中在对调查方法的选择和对调查误差的评价与控制上,其实际上主要是对统计数据的可靠度进行考察,这无疑是必要的,但仍不够充分,要想真正提高统计数据的质量,还必须注意所设计的统计指标是否真正能够反映所要研究的问题。正如射手要想取得好成绩,必须首先找到真正应瞄准的目标,否则再高超的射击技术也难以发挥作用。
(二)统计数据质量内涵的扩展属性
从用户的角度考察,除了准确性这一最基本的属性外,理想的官方统计数据还必须具备以下几种性质。
1.及时性
指的是统计数据的提供能够及时满足用户需要的程度。这通常可以用经济现象发生的时间和最早可获得反映该现象数据的时点之间的间隔来反映。对经济现象进行研究和制定经济政策通常需要随时把握经济发展的最新动态,如果政府统计部门不能及时提供必要的数据,则很可能成为“雨后送伞”,不能真正发挥其本来应有的作用。
2.可比性
指的是同一数据指标在时间和空间上的可比程度。在时间上,由于统计数据的统计制度和统计方法会有所调整,为保持一致性,要求统计部门在每次变动后,对历史数据进行追溯调整,以保持数据纵向上的可衔接性;在空间上,要求不同的国家参考的统计标准尽可能一致,在一个国家内部,则要求同一指标在不同地域的统计口径保持一致。
3.适用性
指的是统计数据可满足用户分析和应用需要的程度,为了提高作为社会公共产品的统计数据的适用性,政府统计机构要了解不同类型用户的需要,所提供的统计数据在指标种类、指标定义、构成要素以及分类等方面要尽可能与用户的需求相吻合。另外,为了促进用户正确理解和应用有关统计数据,应该尽可能提供指标解释、计算方法,以及发布的统计数据与源数据(metadata)之间的衔接关系等相关辅助信息。
4.可获得性
指的是数据用户获取统计数据及其相关辅助信息的难易程度。它包含两个层次的含义,一是获得统计数据本身的难易程度;二是获得相关统计信息咨询服务的难易程度。
应当指出的是,在现实的统计工作中,要使统计数据同时完全符合上述几种属性是有一定困难的。例如,在数据的准确性与及时性之间,就经常会发生鱼与熊掌难以兼得的情形:为了取得准确的数据需要做详细的调查和统计,这就需要花费大量的时间。因此,有必要做适当的取舍,或者采取其他补救的方式。例如,在对GDP进行核算时,常常先利用相关进度统计资料做速报,在大体准确的基础上满足及时性的要求,然后利用年报统计和会计报表等资料进行GDP的详细核算,最后,每隔一段时间利用经济普查的资料对GDP做进一步的修订,以满足准确性的要求。
(三)从全面质量管理角度考察的统计数据质量内涵
从全面质量管理的角度考察,关于统计数据质量内涵的界定,不再单纯地停留在准确性维度或者是用户需求的角度,而是进一步拓展到为了生产高质量的统计数据,政府统计机构所必须具备的环境与各种条件。
全面质量管理是一种从源头到终端的全面管理。从生产到使用的各个环节都会影响到统计数据的质量,因此,统计数据质量的内涵也可以基于统计数据的各生成环节来界定。
1.统计生态环境的质量(前提条件)
所谓统计生态环境是指所有影响统计工作的外部因素和条件的总称。高质量的统计生态环境要求有一个高效率、抗干扰的统计管理体制,一套健全的统计法规,一支高素质的统计人员队伍,充分的资金和软硬件投入,以及政府和社会公众对统计的科学态度,等等。
2.统计设计的质量(事前阶段)
高质量的统计设计要求政府统计机构能够在充分考虑本国国情的基础上,尽可能地根据研究目的,参照相关国际准则,设计科学合理的统计指标体系与国民经济核算体系,提出科学可行的统计调查方案及报表编制方案,以及详尽完整和规范的专业技术人员操作指南、方法指引等标准化文本。
3.统计调查与统计处理的质量(事中阶段)
提高这一阶段统计数据质量的关键在于确保源数据能够按照所设计的方案进行收集和处理,并尽量减少数据在收集和加工过程中的误差。应尽可能地提高“源数据→报告数据”这一过程的统计核算精度。
4.统计数据的发布、修订与评估的质量(事后阶段)
提高这一阶段统计数据质量的关键在于按照国际准则及时发布数据,并根据用户需求提供多样化的数据产品形式;在数据诠释方面,应提供尽可能详细的指标解释、方法介绍以及必要的统计分析等;积极开展有效的报告数据质量评估和修订工作,从而形成数据生产者和使用者良性互动的局面。
(四)三种统计数据质量概念的关系
图2-2是上述三种统计数据质量概念相互关系的示意图。
图2-2 三种统计数据质量概念的相互联系
由该图可以看出,从全面质量管理角度考察的统计数据质量概念涵盖维度最广,从用户角度考察的统计数据质量概念涵盖维度次之,从准确性角度考察的统计数据质量概念虽然比较单一,却是所有统计数据质量概念最核心的部分。这三种概念分别产生于统计数据质量管理的高级阶段、中级阶段和初级阶段。
应当指出,在以上所述的三种统计数据质量概念中,准确性是一般研究人员需要关注的首要问题。一定时期内,一个国家执行的统计规范文件是相对稳定的,所公布的统计指标数量、统计分类和及时性在短期内也不会发生重大变化。因此,短期来讲,对经济统计数据质量的评估实际上主要是对数据的准确性进行诊断。在许多场合,统计数据的准确性成为统计数据质量评估的核心问题。因此,为了避免概念上的混淆,以下我们将统计数据质量的概念进行广义与狭义的区分。广义的统计数据质量概念包括以上所述的后两种概念,是一种多维的概念,狭义的统计数据质量则专门指数据的准确性。广义的统计数据质量是国际机构对一国(或上级部门对下级机构)的统计数据的长期、动态的综合评价,反映一个国家(或地区)统计数据质量改进的努力方向;狭义的统计数据质量则是使用者对统计数据的短期要求,也是进行专题研究的前提条件。