第六节 效度
一、效度的定义
所谓效度就是正确性程度,即测量工具确能测出其所要测量的特质的程度。效度越高,即表示测量结果越能显示其所要测量的对象的真正特征。效度是任何科学的测量工具所必须具备的条件。
测量的效度可以决定所建立的理论解释的正确程度。人们对某种理论的反驳通常是指出这一理论对某一变量的测量是无效的,因此,它对变量间关系的理论解释也是无效的。
对效度的检验可以保证不同的研究人员对某一研究变量的意义与内涵有一致的理解。尽管每种测量工具都有其适用范围和局限性,不存在对所有现象都有效的测量工具,但是,一种有效的测量工具可以被不同的研究人员用来观测同一种现象或同一个概念,这样才能保证他们所测量的内容是一致的和可比的。
在选择测量工具和设计问卷、表格时,首先要考虑其效度。也就是说,要考虑“测量出来的东西是否真的是研究者想要得到的东西”,“所测得的结果是否能正确、有效地说明所要研究的现象”。
二、效度的基本原理
鉴别效度,必须确定测量的目的与范围,考虑所要测量的内容是什么,分析其性质及表现特征,进而核查测量的内容是否与测量的目的相符,以此判断测量结果反映所要测量特质的程度。
假设某种测量的目的在于衡量个体在某项属性(如工资收入)上的差异情况,则一群被调查者在该测量中得分的总变异量包括三个部分:一为个体在与该属性有关的共同特质上所造成的变异量,二为与该属性无关的其他个别特质(如奖金、补贴、亲友赠款等)所造成的变异量,其余为随机误差变异量,可用公式表示:
从上述测量分数变异的观点来看,效度就是在测量得分的总变异量中,由所要测量的特质所造成的变异量所占的百分比:
三、效度的检查
效度是一个多层面的概念,它是相对于特定的研究目的和研究侧面而言的。检验效度必须针对其特定的目的、功能及适用范围,从不同的角度收集各方面的资料分别进行。检验效度的方法很多,大体分为内容效度、准则效度和建构效度。
(一)内容效度(或表面效度)
考察内容效度旨在系统地检查测量内容的适当性,并依据我们对所研究的概念(变量)的了解去鉴别测量内容是否反映了这一概念的基本内容。
内容效度实质上是个判断问题,K.D.贝利在《社会研究方法》一书中提出,它必须“考虑两个主要问题:(1)测量工具所测量的是否正是调查人员所想要测量的那种行为?(2)测量工具是否提供了有关那种行为的适当样品?”
第一个问题涉及研究者的主观判断能力或定义性的判断。第二个问题取决于研究者对研究变量的全面了解。例如,政治知识的考试虽然不可能列出所有的内容,但是考卷中必须对政治知识的每一部分都列出几道试题,作为这一部分的样品。这样,就能通过考察这些样品是否代表了变量的各个部分来评判考卷的内容效度。
检查内容效度就是检查由概念到指标的经验推演是否符合逻辑,是否有效。对此只能凭借人们的主观判断和共同定义,因为对一个概念的理解是因人而异的,但在科学研究中,需要以大多数科学家所接受的概念定义为标准。
(二)准则效度(效标效度)
准则是被假设或被定义为有效的测量标准,符合这种标准的测量工具可以作为测量某一特定现象或概念的效标。对同一概念的测量可以使用多种测量工具,其中每种测量方式与效标的一致性称为准则效度。
准则效度有各种形式。如果效标或准则是依据将来实际发生的情况而建立的,那么这种准则效度可称为预测效度。如果效标是与某种测量方式同时被证明为有效的,则称之为共变效度。如果效标是以实际经验判断为准的,则称为实用效度。
预测效度是将已经得到的测量结果与未来实际发生的情况进行比较,以检查两者的一致性。例如,设计一种预测学生学习成绩的量表或测验,用它来测量学生毕业时的学习成绩。如果在学生毕业时,实际的学习成绩确实与预测值相一致,那么这一量表或测验就具有预测效度。研究人员可以继续使用它来预测其他学生的成绩。
共变效度是用来判断其他的测量工具是否可以取代作为效标的测量工具。例如,假设有一种高度精确的,但是却费时、费力的心理测验方法;它通过复杂的测量可以鉴别出某种精神疾病,但这种心理测验方法不可能在短时间内检查大量样本。如果能够设计出另一种简单的、自我填写的量表方法,而且这一量表的测量结果与心理测验的结果高度相关的话(即具有共变效度),那么它就可以替代心理测验方法。
实用效度通常用来检查测量工具的实际效果。由于对某些现象的测量过去并没有一定的标准,所以只能依据实际经验来检验测量工具的有效性。例如,近年来在我国采用的对干部能力素质的测评方法,其效度通常是依据组织部门和熟悉人对被测干部实际状况的了解来做出经验判断的。实用效度与共变效度有些近似,如定量化的干部测评方法就是以组织部门传统的考察干部的方法为效标,当它具有较高的效标效度时,由于它省时间、简便易行,所以就能取代过去沿用的老方法。
准则效度可以用两种测量工具得出的观测值之间的相关系数来衡量,而不是靠主观判断,但它的局限性是:有些作为效标的测量工具只是假定有效的,它本身是否真正有效并没有理论依据,这一缺陷是心理量度化方法所共有的。
(三)建构效度
考察建构效度是要了解测量工具是否反映了概念和命题的内部结构。它通常在理论性研究中使用。由于它是通过与理论假设相比较来检查的,因此建构效度也称为理论效度。
理论假设一般是陈述两个概念(X和Y)之间具有相关关系,那么在经验层次上对X的测量与对Y的测量也应当是相关的。前面已讲过,测量同一个概念可以用多个指标,当用X和Y的多个指标来测量两个概念之间的关系时,如果不同指标的测量都反映出理论所假设的关系,那么这些测量就具有建构效度。
例如,假设“工作积极性”(X)与“对闲暇时间的利用”(Y)是正相关的,对“工作积极性”在经验层次上可选择两个指标,一个是“工作的主动性程度”(x1),另一个是“工作动机”(x2)。对于“闲暇时间的利用”这一变量可以设置“有效活动占用率”(y1)这一指标来测量。如果x1与y1, x2与y1都是正相关,则称这一测量具有建构效度。反之,则称测量工具或理论不具有建构效度。
以上三种效度可用图6.6来表示:
图6.6 检查效度的三种程序
(四)内在效度与外在效度
测量都是在具体的时间、地点对具体的调查对象所作的观测。如果在一项具体研究中,对上述三种效度(内容效度、准则效度、建构效度)的检查没有发现问题的话,就可以认为这一研究具有内在效度,它的资料和结论可以有效地解答所研究的问题。但是,这一研究结论的有效性是否可以适用于其他时间、地点和对象呢?这就涉及外在效度的问题了。可以说,内在效度是指一项研究的资料和结论的有效性,而外在效度是指这种研究结论的普遍有效性。
例如在美国的一些城市抽取几百名工人进行研究发现,“当代工人的阶级意识普遍淡漠”,那么,这一结论是否适用于各个国家,或美国的各个城市,还是仅适用于这几百名工人呢?它是否仅适用于80年代或进行研究的某一年(1984年)呢?由这一例子可以看出,对外在效度的检查要考虑样本的代表性和特殊性,以及研究时间、地点、情境和研究内容的普遍意义。
四、信度与效度的关系
信度和效度都是科学的测量工具所必须满足的条件。两者的关系是:(1)信度低,效度不可能高。如果收集的资料不可信、不可靠,那么它肯定不能有效地说明所研究的对象。(2)信度高,效度未必高(效度有可能很低)。例如即使精确可靠地测出了一个人的经济收入,也未必能说明他的消费水平。(3)效度低,信度有可能很高。例如一项研究即使未能有效地说明社会流动的主要原因,但它有可能精确、可靠地调查出各个时期、各种类型的人的流动数量。(4)效度高,信度必然也高。如果有效地说明了某种现象,那么它的资料和结论都必然是且必须是可信的。由这些关系可以看出,测量的信度是效度的必要条件,但不是充分条件,无信度必然无效度,但有信度未必有效度。反之,效度是信度的充分条件但不是必要条件,有效度必然会有信度,但无效度却未必无信度。图6.7是对两者关系的图示。
图6.7 信度与效度的关系
下面我们再从测量理论的角度考察信度与效度的关系。由前面所介绍的几个计算公式可知:
其中为观测值的总变异量,为所测变量的变异量,为其他变量的变异量,为随机误差的变异量。
由[3]可转换为:
将[1]、[2]代入[4]可得:
由此可知,效度系数等于信度系数减去。由于其他变量的影响是内含在测量工具之中的,因此很难测出他们的变异量(),而信度系数则可由相关系数计算。所以在一些研究中,研究者常用信度系数来近似地说明效度,但这是有缺陷的,因为在社会研究中,其他无控制的变量对资料的效度有很大影响。所以还是应当通过对内容效度、准则效度和建构效度的检查来说明研究的有效程度。
最后,我们再对影响效度的因素做一简单说明。由信度和效度的关系可知,所有影响信度的因素也必然影响效度。此外,除随机误差外,效度还受到系统偏差和其他变量的影响。对这些影响可主要考虑两个方面:(1)测量工具。测量的效度在很大程度上取决于试题的效度。因此,在设计问卷、量表和调查提纲时要审慎地考虑调查的项目和内容,并对概念的操作定义和试题的内容效度进行检查。(2)样本的代表性。它是影响外在效度的重要因素。要提高研究的外在效度,就有必要采用概率抽样的方法,而且当研究总体的异质性很高时,还应加大调查的样本量。