第三节 数据质量的综合评价法
一 综合评价法的基本思路
以上所述的几种方法主要是对统计数据的准确性进行评估和检验的方法。随着统计数据质量的概念由一维向多维发展,对统计数据质量的评估也从数据本身向整个数据生产过程各个环节的评估扩展,因而也产生了对统计数据质量进行综合评价的方法。国际货币基金组织提出的ROSC-DM法(根据一定的标准与规范提出数据质量报告的方法)、欧洲统计系统提出的指标集测评方法等都属于这一类方法。
这类方法的特点是根据统计数据质量的内涵,将统计数据的质量划分成若干具体要求并进一步通过相应的基础指标来体现,然后通过自评、互评或问卷调查的方式对各项基础指标进行判断与分析,给出相应的评价值,同时还要给出各项指标和各项质量要求的权重,最后采用一定的方法将对各项指标的评价值汇总起来,对统计数据的整体质量做出综合评价。
以下将结合我们所进行过的一项实证研究,来探讨综合评价方法在我国政府统计数据质量评估中的具体应用。
二 构建统计数据质量综合评价指标体系
(一)构建数据质量评价指标体系的原则
开展数据质量的综合评价,首先需要科学地构建统计数据质量指标评价体系。只有在正确地理解统计数据质量的科学内涵并对统计工作流程有全面深刻认识的基础上,才有可能做好这一工作。
综合评价指标体系的构建应该遵循以下原则。
第一,全面性原则。全面性是指该体系应涵盖对整个统计工作全部流程的评价,同时又能够满足各类用户对统计数据的需求。
第二,科学性原则。科学性是指各种指标的设计要具有科学的理论依据,意思明确,并且便于测度。
第三,可操作性原则。评价指标的选择应该与本国的统计发展水平相适应,设计的指标要切合实际,具有可操作性。
第四,相互独立性原则。即所选用的指标相互之间应尽可能地避免高度相关,这样既能减少指标体系的冗余,又能避免提供重复的信息导致综合评价的结果出现偏差。
(二)统计数据质量综合评价指标体系
在本书第二章第二节中,我们对目前国际上较为通行的3种具有代表性的数据质量评估框架进行了对比分析,并在此基础上提出了一个对我国政府统计数据进行质量评估的基本框架(详见本书第二章中的表2-10)。根据这一框架,我们又进一步构建了对政府统计数据质量进行综合评估的指标体系(见表4-2)。
该数据质量评估框架采用了4层结构的形式。第一层次是政府统计数据的整体质量;第二层次将政府统计活动的全过程划分为不同的阶段;第三层次列出了相应的数据质量维度。其中,客观性、适用性和方法健全性主要是对统计数据质量的前提条件和统计设计阶段的质量要求;准确性、可靠性和可比性主要是对统计数据生产阶段的质量要求;及时性、完整性和可获得性主要是对统计数据公布阶段的质量要求。在各质量维度之下,又设置了若干基础指标,通过这些指标可以更确切地反映相应数据质量维度的内在要求。
表4-2 政府统计数据质量4级评价指标体系
注:关于四级基础指标的详细解释参见表2-10。
三 给出对基础指标的评价值
(一)给定基础指标评价值的标准
在一般的统计综合评价中,由于构成指标体系的各项基础指标的类型、计量单位与数量级别常常是不同的,为了便于综合,首先要对各基础指标的实际值进行预处理,使之转化为具有可比性的指标评价值。但在本次统计数据质量评估的实证研究中,由于表4-2给出的基础指标都属于定性指标,因此省略这一步骤,直接要求参与数据质量评估的人员对各项基础指标采用评分的形式,按照“非常不满意”“比较不满意”“一般”“比较满意”“非常满意”5个等级进行打分,相应的分值分别为1—2分、3—4分、5—6分、7—8分、9—10分。
(二)获取指标评价值的途径
反映数据质量各项基础指标的具体评价值,可通过自评、互评或问卷调查的形式取得。自评与互评是国际组织与一些发达国家进行数据质量评价时经常采用的形式。所谓自评,就是由政府统计机构自身进行评价,互评则是由不同国家或地区的政府统计机构互相进行评价。问卷调查则是通过邀请有关专家和对统计工作比较了解和关心的社会人士参与数据质量评价的一种形式。
在本次实证研究中,我们采用问卷调查的形式,向参加第三届中国统计学年会的专家学者、高校教师及研究生发放问卷(该问卷的具体内容和形式参见本章的附录)。本次调查的对象均为统计数据的用户,所以也可称之为政府统计数据的用户满意度调查。
(三)对问卷调查结果的初步分析
本次调查发放问卷共计160份,回收155份,剔除无效问卷5份,得到有效问卷150份,有效回收率为93.8%。本次调查的受访者包括教授24人(占比16%),副教授25人(占比17%),讲师23人(占比15%),博士研究生(含博士后研究人员)30人(占比20%),硕士研究生38人(占比25%),其他类型10人(占比7%)。就受访者的研究领域而言,数理统计50人(占比33.3%)、经济统计62人(占比41.3%)、社会统计72人(占比48%)、生物和医学统计7人(占比4.7%)。所有受访者都认为统计数据在自己的研究中不可缺少,其中,将统计数据视为基础性资料的受访者有140人,将统计数据视为辅助性资料的受访者有10人,占比分别为93.3%和6.7%。
调查问卷中的测评量表必须具有足够的信度与效度,才能确保研究结论的可靠性。
表4-3是利用KMO测度和巴特利特球形方法对问卷效度进行检验的结果。从表中可以看出,KMO抽样适当性量数为0.917,巴特利特球形检验的χ2统计值的显著性概率小于1%,这说明测评量表数据适合进行因子分析。进一步通过方差最大化旋转方法,可得到3个公因子,且每个问项在相应因子上的因子载荷都超过0.4(见表4-4),显示量表具有较好的结构效度。另外,表4-4还列出了对各基础指标测评的信度检验结果。
表4-3 效度巴特利特球形检验结果
信度和效度分析的结果表明,本次问卷调查结果是可信的、问卷中设置的测评指标对满意度的影响是显著的,每一指标的设置也是有必要的。
表4-4 信度与问卷结构效度检验结果
四 确定各层次指标的权重
对于数据的整体质量而言,各评价指标间的相对重要性未必相同,评价指标之间的相对重要性大小,可用权重系数来刻画。赋予对评价结果较重要的指标以较大的权数,反之,则赋予较小的权数,同时要求每个层次下各指标的权数之和都应等于100%。
指标权数的确定方法有两大类:主观赋权法和客观赋权法。主观赋权法的特点主要是利用专家的知识和经验来确定各指标的权数。客观赋权法的特点是从统计数据出发,根据各指标所提供的信息量大小来确定权数。在本次实证研究中,我们综合采用上述两种方法来确定各项指标的权重。
(一)利用熵权系数法确定基础指标(四级指标)的权重
熵(Entropy)的概念源于热力学,表示不能用来做功的热能,是热能变化量除以温度所得的商。其概念是德国物理学家R. Clausis和L. Boltgman首次提出来的,以后美国数学家、控制论及信息论创始人N. Wiener和C. E. Shannon提出了更广义的信息熵。在信息论中,熵是对系统无序程度一个度量。
当系统处于n种不同的状态,且每种状态出现的概率为pi(i=1, …, n)时,该系统的熵定义为:
其中0≤pi≤1,,由熵的定义可以看出,当pi=1/n时(i =1, 2, …, n),E取得最大值,即有:Emax=lnn。如果系统只有一种状态,且其概率pi=1,则系统的熵Ei=0,表明系统没有不确定性。
信息量越大,不确定性越小,熵也越小;反之,信息量越小,不确定性越大,熵也越大。不难理解,某个指标的信息熵E越小,表明该指标值的变异程度越大,其提供的信息量也越大,在综合评价中所起作用越大,指标所占权重也应该越大。反之,某指标的信息熵E越大,表明该指标值的变异程度越小,其提供的信息量越小,在综合评价中所起作用越小,指标所占权重也应该越小。所以在具体分析过程中,可利用熵来计算各指标权重。
设有m个评价指标,n个评价对象,则有原始指标数据矩阵R′。
对R′做标准化处理,得到:R=(rij)m×n,
其中,。
在m个评价指标、n个评价方案的评估问题中,第i个指标的熵为:
式中,,并假定,fij=0时,fijlnfij=0,则第i个指标的熵权为:
通过熵的定义以及熵函数的性质,可知熵权具有如下性质。
(1)各评估对象在指标i上的值完全相同时,熵值达到最大值1,熵权为零。这也意味着该评估指标没有向决策者提供任何有用的信息,该指标可以考虑取消。
(2)当个别评估对象在指标i上的值相差较大、熵值较小、熵权较大时,说明该指标向决策者提供了有用信息。同时还说明在该问题中,各评估对象在该指标上有差异,应重点分析和考察。
(3)指标的熵越大,其熵权越小,该指标越不重要,而且满足0≤ωi≤1,。
(4)作为权数的熵权,有其特殊意义。它并不是在决策或评估问题中某指标实际意义上的重要性系数,而是在给定被评估对象集和各指标值确定的情况下,各指标在竞争意义上的相对激烈程度。
(5)从信息角度考虑,它代表该指标在该问题中提供有用信息量的多少程度。
(6)熵权的大小与被评价对象有直接关系。熵权系数的确定取决于待选方案的固有信息,因此被称为客观权重。运用熵值法确定熵权系数具有客观性强、理论完善等优点。
表4-5是利用问卷调查中对基础质量指标(即表4-2中的四级指标)评价的结果,按照式(4-15)计算得到的统计质量指标的熵值。
表4-5 统计数据质量基础指标熵值
根据上述质量指标的熵值,按照式(4-16)计算的各基础质量指标对应于质量维度层次的熵权值(按照熵权法计算的权重)如表4-6所示。
表4-6 统计数据质量基础指标对应于质量维度层次的熵权值
(二)利用CRITIC法确定质量维度(三级指标)的权重
CRITIC(Criteria Importance Through Intercriteria Correlation)法是由Diakoulaki等提出的一种客观赋权方法。其基本思路是确定指标的客观权数的同时要考虑指标变异性和指标间冲突性这两个重要因素,即把指标权重分为指标间的对比强度和指标间的冲突性两种,通过数学方法对两种权重进行综合。其中,对比强度表示同一个指标各个评价方案之间取值差距的大小,通常用标准差来体现,标准差越大表明各方案之间取值的差距越大;而指标间的冲突性则是以指标之间的相关性为基础进行考虑的,如果两个指标之间具有较强的正相关,则说明两个指标的冲突性较低。其具体步骤如下。
(1)计算对比强度si
对比强度用样本数据的标准差si来表示:
其中,zij为标准化后的样本指标值,为第i个指标的样本标准化均值。
(2)计算冲突性ci
与相关系数相反,ci反映第i个指标与其他指标的冲突程度:
其中,rij表示指标i与指标j的相关系数。
(3)计算综合权重pi和指标权重ωi
对上面两种权重进行综合,得到:
pi= si·ci
对pi进行归一化处理,得:
即得到第i个指标的客观权重,且。
在本次问卷调查中,我们通过问题5要求被调查者给出对各质量维度(即三级指标)重要性的评价。这一数据的均值表示各指标的重要性水平均值,而标准差的大小反映被调查者对指标重要性认识的差异,因此我们用均值代替对比强度来计算权重。最终计算的结果如表4-7所示。
表4-7 质量维度(三级指标)的权重
(三)利用主观赋权法确定数据产生阶段的权数
在本项实证研究中,对于二级指标权重的确定采用了主观赋权法,经向有关专家咨询,绝大多数专家认为,对于统计数据的整体质量而言,统计数据产生的3个阶段具有同等的重要性,因此将3个阶段的权重均设置为1/3。
五 对统计数据质量进行综合评价
由于对数据质量基础指标的判断相当程度上依赖于参与评价者的主观感知,而其对统计数据质量具体指标的测评具有一定的不确定性与模糊性,因此比较适合采用模糊综合评价法。模糊综合评价法是运用基于“模糊集合”概念的模糊数学方法,通过引入隶属函数来处理参评者心理感知上的模糊性,同时考虑多种因素的影响,进行综合评价的一类方法。
本项实证研究的模糊综合评价过程涉及两类基本要素:一是由刻画被评价对象的p种因素构成的因素论域U= {u1, u2, …, up},对应于事先设置的所有政府统计数据质量测评指标;二是由刻画每一因素所处状态的q种决断构成的评语论域V= {v1, v2, …, vq},对应于“非常满意”“比较满意”“一般”“比较不满意”“非常不满意”5种评价。模糊评价的目标是确定在因素论域U上的模糊权重向量W= {w1, w2, …, wp},以及从U到V的模糊关系矩阵R=(rij)p×q,进而通过模糊变换W°R,得到被评价对象在评语论域V上的表现S=(s1, s2, …, sq)。
被评价对象“政府统计数据质量的用户满意度”作为一个模糊概念,是因素论域U的一个模糊子集,其表现以模糊向量W= {w1, w2, …, wp}来表示,其中wi(i=1, 2, …, p)表示测评指标ui对模糊子集W的隶属度,也即测评指标 ui相对于测评概念的重要程度(可理解为权重系数)。W中的数值通过采用前面所述的熵权系数法或CRITIC法计算取得。模糊关系:
刻画了U与V的笛卡尔乘积U ×V上的模糊子集“单因素用户满意度”,其中rij(i=1, 2, …, p; j=1, 2, …, q)表示元素(ui, vj)对R的隶属度,也即用户将测评指标ui的满意水平评定为vj的可能性。R中的数值通过问卷调查并采用模糊统计法计算取得。
模糊变换模型S=W°R=(s1, s2, …, sq),其中,
表示评语vj对模糊概念S的隶属度,也即被评价对象“政府统计数据质量的用户满意度”可以被确定为vj的程度。令最大隶属度为
则将相应的评价等级vj∗作为对被评价对象表现水平的最终判定结果。
记数据质量指标的用户满意度隶属矩阵为 O =(oij)17×5。综合调查问卷数据,将受访者对5种评语的选择比重确定为各评语对模糊子集“单因素用户满意度”的隶属度,由此可以得到对隶属矩阵 O 的近似估计(见表4-8)。
表4-8 数据质量指标的用户满意度隶属矩阵
按多级模糊综合评价的分析步骤,将O按照9个统计数据质量维度进行分块,可得:
结合由熵权法得到的统计数据质量指标权重向量wi4,进行统计数据质量指标层次的模糊综合变换:
其中,αi为i维度的评价结果。按照同样的处理,记统计数据质量维度层次的用户满意度隶属矩阵为P,则:
结合由CRITIC法得到的数据质量维度的权重向量wi3,进行统计数据质量维度层次的模糊综合变换,可获得对应的模糊评价结果:
其中,βi为i阶段的评价结果。记Q=(γ′1, γ′2, γ′3)′,结合统计活动不同阶段的权重向量wi2,进行统计活动阶段层次的模糊综合变换:
由此,可以计算得到总体数据质量的模糊评价结果。为了使模糊综合评价的结果更加直观、可比,将5种评语分别赋值为它们的最大值,即100、80、60、40、20,结合各级指标的隶属度评价结果进行加权平均,即得到综合评价结果的得分值,上述计算过程的结果列于表4-9中。
表4-9 统计数据质量模糊综合评价结果
根据表4-9可以得出以下结论。
从统计用户的角度看,我国目前的政府统计数据总体质量的得分为63.74分,按照最大隶属度原则,基于用户感知评价的政府统计数据整体质量水平判定为“一般”。9个质量维度综合得分由高到低依次为及时性、可比性、方法健全性、可靠性、适用性、可获得性、完整性、准确性、客观性。3个统计活动阶段的评价得分从高到低依次是公布阶段、生产阶段和前提条件与统计设计阶段。
六 对综合评价方法的评价与进一步改进的思路
综合评价方法比较适用于对一个国家或地区的统计数据质量或统计工作的质量做出综合的判断。该类方法的难点在于建立科学的评价指标体系与各项指标的具体评价标准,以及科学确定各项指标或各个环节在评价中的权重。另外,这种评价相当程度上还依赖于参加评估人员的经验和主观判断。
应当指出,在以上实证研究中,我们所给定的数据质量指标都属于定性指标,对其评价均依赖于参评者的主观判断。另外,参评者主要是高等学校和科研部门的统计用户。今后为了进一步提高综合评价方法的适用性,有必要考虑增加反映客观数据质量的量化指标,在参评人员上也要扩大范围,使之更具代表性。另外,在如何开展统计机构的自评与互评等方面也要给出更加切实可行的具体办法。
附录 统计数据质量用户满意度调查问卷
尊敬的业界同仁,您现在看到的是一份对我国政府统计数据质量的满意度调查问卷,您的回答将为我们的研究提供重要信息。请根据您的实际感受作答,感谢您的支持!
——“国家统计数据质量管理问题研究”课题组
背景问题
B1.请问在您的研究过程中,统计数据居于何种地位?
□01 基础性/必备资料
□02 辅助性/参考资料
□03 可有可无
B2.请问您在研究中收集数据的渠道有哪些?(可多选)
□01 正式的统计出版物
□02 统计部门或专业机构网站
□03 专业电子数据库
□04 统计公报、数据分析或专题调查报告
□05 自行实施调查
□06 直接联系统计部门获取统计数据
□07 其他渠道________
B3.请问您的研究涉及以下哪些领域?
□01 数理统计
□02 经济统计
□03 社会统计
□04 生物统计
□05 医学统计
□06 其他________
B4.您的专业技术职务/职称是:
□01 教授/研究员
□02 副教授/副研究员
□03 讲师/助理研究员
□04 博士后流动站研究人员
□05 博士研究生
□06 硕士研究生
□07 其他________
总体评价
Q1.对于您研究成果的获得及其可靠性而言,统计数据质量是否具有重要性?
□01 非常重要
□02 比较重要
□03 一般
□04 比较不重要
□05 完全不重要
Q2.总体而言,您对我国政府统计数据的质量现状是否满意?
□01 非常满意
□02 比较满意
□03 一般
□04 比较不满意
□05 非常不满意
Q3.您认为现阶段影响我国政府统计数据质量的原因主要为哪些方面?(最多选3项)
□01 统计制度和法规不健全
□02 统计调查方法不科学
□03 统计工作人员的业务素质不高
□04 缺乏有效的统计质量控制手段
□05 统计部门服务社会意识差
□06 缺乏民间统计机构的介入与竞争
□07 其他________
Q4.您认为现阶段统计部门最应着力改进的方面有哪些?(最多选3项)
□01 统计体制的合理性
□02 统计方法的科学性
□03 统计质量控制措施
□04 操作的透明度
□05 统计数据发布的及时性
□06 统计数据获取的便利性
□07 统计数据的翔实程度
□08 信息咨询服务机制
□09 相关各部门间的协调
□10 其他________
分类评价
Q5.具体而言,统计数据质量的下列特征对于您研究的重要性如何?请在1—10分范围内打分。如果非常重要,请打10分;如果完全不重要,请打1分(在相应的分数上面打钩)。
(1)统计机构和人员的独立性和客观性
(2)统计数据的编制对主要用户需求的适用性
(3)统计调查及数据编制方法的合理性与健全性
(4)统计数据反映现实情况的准确性
(5)统计数据处理过程的可靠性
(6)统计数据在时间和空间维度上的可比性
(7)统计数据发布的及时性
(8)所公布统计数据结果披露的充分性
(9)统计数据获取途径和方式的多样性与便利性
Q6.请问您对统计数据质量的下列特征是否满意?请根据您的实际感受在1—10分范围内打分。如果非常满意,请打10分;如果非常不满意,请打1分(在相应的分数上面打钩)。
(1)统计机构和人员的独立性
(2)统计调查工作的公开性与透明度
(3)统计人员遵循职业道德标准的程度
(4)统计指标数据编制对用户需求的适合程度
(5)统计指标数据编制对用户需求的满足程度
(6)统计调查和数据编制方法与国际标准的相符程度
(7)统计数据准确反映实际情况的程度
(8)统计部门关于数据处理和质量评估结果的可信性
(9)统计数据修正规则和程序的合理性与科学性
(10)统计数据在时间维度上的可比性
(11)统计数据在不同地区、不同部门的可比性
(12)统计数据的发布速度
(13)统计数据发布频率(年度、季度等)的合理性
(14)所公布统计数据结果披露的充分性
(15)统计环境(统计方法等)发生变化的事先告知程度
(16)统计数据获取途径和方式的便利性
(17)统计部门对用户需求的帮助程度
本章主要参考文献
[1]常宁:《IMF数据质量评估框架及启示》,《统计研究》2004年第1期。
[2]成邦文、董丽娅、杨峻:《研究开发机构统计数据质量与异常点的对数正态分布检验与识别》,《统计研究》2000年第1期。
[3]冯士雍:《中国抽样调查应用中的若干问题》,《中国统计》2001年第11期。
[4]傅德印:《利用探索性数据分析法对统计汇总数据进行质量控制的尝试》,《数理统计与管理》2001年第1期。
[5]李子奈、周健:《宏观经济统计数据结构变化分及其对中国的实证》,《经济研究》2005年第1期。
[6]孟连、王小鲁:《对中国经济增长统计数据可信度的估计》,《经济研究》2000年第10期。
[7]屈耀辉、曾五一:《农产量抽样调查中计量误差来源及其分析》,《财经理论与实践》2004年第3期。
[8]任若恩:《中国GDP统计水分有多大——评两个估计中国GDP数据研究的若干方法问题》,《经济学》(季刊)2002年第10期。
[9]王华、金勇进:《统计数据质量评估》,中国统计出版社2010年版。
[10]杨清:《统计数据质量研究新思路》,《统计研究》2000年第8期。
[11]叶长法、岑国荣:《统计数据质量评估方法探讨》,《浙江统计》1997年第4期。
[12]岳希明、张曙光、许宪春:《中国经济增长速度:研究与争论》,中信出版社2005年版。
[13]曾五一:《统计调查体系与调查方法问题研究》,中国统计出版社2009年版。
[14]张为民、崔红艳:《对中国2000年人口普查准确性的估计》,《人口研究》2003年第7期。
[15]Chung Chen and Lon-Mu Liu, “Joint Estimation of Model Parameters and Outlier Effects in Time Series”,1993.
[16]L. R. Klein and S. Ozmucur, “The Estimation of China's Economic Growth Rate”,Journal of Economic and Social Measurement(4)2002.
[17]M. H. A. Pesaran, “Simple Panel Unit Root Tests in the Presence of Cross-Section Dependence”,Journal of Applied Econometrics(2)2007.
[18]Rawski, G. Thomas, “What's Happening to China's GDP Statistics? ”,China Economics Review(12)2001.
[19]Wu, X. Harry, “The‘Real' Chinese Gross Domestic Product(GDP)for the Pre-reform Period 1952-77”,Review of Income and Wealth(1)1993.