1.3 整体效度观的局限性
测试效度(Test Validity)是测试研究和实践中最基本、最核心的概念。测试效度的界定和效度验证(Validation)的方法,一直以来都是推动测试理论发展的内在原因和动力源泉。一方面,测试效度的内涵丰富,用“有效性”来概括,字面理解不难,但要深入、透彻理解,却并不容易;另一方面,效度验证的方法复杂,用“科学性”来描述,很能体现特色,但方法的使用是否恰当、结果的解释是否合理,却不易把握。正因为如此,Kane(1990: 9)感叹道:“效度是一个令人难以捉摸的概念,想到效度即已令人发怵,再想做点什么就更加令人抓狂了。”
自20世纪七八十年代,测试效度的概念开始由“分类说”向“整体观”演变。在Cronbach(1971,1980,1988,1989)和Messick (1980,1988,1989a,1989b)等人的率领下,心理测验专家和测试专家不断强调测试效度是一个整体概念,而不应区分不同的类别。整体观主张以构念效度(Construct Validity)一统其他各类效度,着重关注考试分数到底意味着什么,在多大程度上体现了测试所要考查的目标构念(Target Construct),简单地说,就是对分数作出解释。受这种观点的影响,1985年版美国《教育与心理测验标准》(AERA et al.1985: 9)将效度定义为“分数解释的恰当性、意义和有用性”。1999年版《教育与心理测验标准》进一步从分数解释的合理性和测试使用的针对性两个方面进行强调,将效度的概念修改为“证据和理论支持符合测试使用需要的分数解释的程度” (AERA et al.1999: 9)。根据这一定义,测试效度不在测试本身,也不在分数,而在于对分数的解释和使用(Angoff 1988;Wainer & Braun 1988),或者说,“基于分数的推理和决策”(Goodwin & Leech 2003: 182),而效度验证也就是“为了为所作分数解释提供坚实、科学基础而收集证据的过程”(AERA et al.1999: 9)。因此,这种效度观可称为基于分数解释与使用的效度观。
显然,这种整体观是一种主张“试了才知道”的后验效度观。以这种观念为指导,分数产生以前的环节,如构念界定、大纲及规范制定、试卷命制等测前环节,就被排除在效度的概念范畴之外,也没有被纳入效度的验证过程,因为没有分数就无所谓分数的解释与使用。从现实的角度考虑,测试未经实施,“实际效度”还没有产生,确实是“不试不知道”,但从逻辑上来讲,测前是测后的基础和前提,要保证测后能有理想的效度,首先测前不能有问题,这是“不试也知道”的。测前问题必然会影响到测后,并且即使在测后发现了问题也于事无补,已经造成的损失事后不可能弥补,这在高风险测试中甚至还有可能导致测前问题被刻意回避或隐瞒的现象。可见,测试效度远不是测后分数的解释与使用问题,而是一个涉及测前和测后各个环节、关乎测试全局的问题。换句话说,每个环节的结果数据,而不仅仅是测后的分数,都需要得到合理的解释和恰当的使用,因此,每个环节都具有效度,都需要进行效度验证。
由此看来,基于分数解释与使用的效度观,虽然提出效度是一个整体概念,但作为一种整体观,其“整体性”并不完整,而是一种狭义的整体观。其置测前环节于不顾的观念和做法,既不利于排除损害测试效度的因素,也不利于控制测试使用的风险。因此,有必要从广义的角度,探讨一个集设计、开发、施测、评分、使用和效标参照于一体的全局效度观,以反映测试效度的真实内涵,并为各个测试环节的效度验证提供指导。