
中庸信念/价值量表的信度概化研究
邹智敏 肖莉婷
中山大学心理学系
摘要:本研究尝试收集使用“中庸信念/价值量表”(中庸9题量表)的文章进行信度概化研究,来回答以下三个问题:①这份量表在不同研究中的信度表现如何?②哪些因素会影响它的信度?③在今后的研究中如果希望提高其信度,应该注意哪些问题?基于14个研究数据的结果发现,alpha估计值的平均数一般落在0.59~0.77的范围内。样本量是本研究所发现的唯一会造成信度系数变异的因素;而性别比例以及样本来源相对而言都不会影响信度系数。笔者针对这一量表在使用上需注意的问题以及修改建议给予了讨论。
关键词:信度概化 元分析 中庸 内部一致性 信度系数
一 引言
黄金兰、林以正、杨中芳(2012)的“中庸信念/价值量表”(简称中庸9题量表)是在杨中芳、赵志裕(1997)“中庸实践思维量表”基础上,通过因素分析等方式进行删减,最终得到9个项目的迫选式量表。该量表在信效度等关键测量指标上都较原量表有较大改进(黄金兰、林以正、杨中芳,2012),继而受到不少研究者的青睐,目前已在临床、心理健康、工业组织等多个领域得到应用。本研究旨在综合上述量表目前的信度状况,分析影响其信度的因素,并对控制测量条件以改善该量表信度给出初步建议,以供将来的研究者在使用该量表时参考。
众所周知,信度是量表质量评估的重点,对量表的有效性和推广性有重要影响。研究者最熟悉的信度指标是Cronbach's alpha,代表测验中不同项目之间的一致性程度,也叫同质信度,其大小会随着施测样本的变化而变化,因此研究该信度系数在不同样本之间的变异来源就显得十分必要。
近来,对信度系数进行元分析的研究逐渐增多(Peterson, 1994)。Vacha-Haase(1998)针对信度的可变性,提出“信度概化”(Reliability Generalization, RG)的概念和方法,试图应用概化理论的思想来指导信度研究的元分析。简单来说,信度概化就是将已有研究的信度系数作为研究样本,用描述统计、层次回归分析等统计方法对其进行元分析,探究影响信度系数变异的预测源,进而说明更适合一个量表的样本群体有何属性和特征(焦璨等,2010)。
信度概化研究包含多种不同的模型。例如,固定效应模型(fixedeffects model, Shields & Caruso, 2004)、随机效应模型(random-effects model, Beretvas, Meyers, & Leite, 2002)、混合效应模型(mixed-effects model, Beretvas & Pastor, 2003)。不同研究者采用不同的方法对信度系数均值进行估计。有些研究者根据样本量进行加权来计算信度系数的估计均值(Beretvas & Pastor, 2003);而有些研究者直接使用未加权的信度系数估计均值(Deditius-Island & Caruso, 2002)。
本研究采用Rodriguez和Maeda(2006)推荐的对信度系数进行元分析的步骤,其中包括使用随机效应模型和加权最小方差(weighted least squares, WLS)回归,同时报告加权平均值以及T转换后的T加权平均值,作为考察信度系数集中趋势的参数。
中庸9题量表从完成修订之日起,就受到中庸研究者的广泛关注,目前已经应用到临床(如高瞻、李新天、许律琴、李炳洁,2013)、心理健康(如阳中华、邓云龙、陈向一,2013)、情绪调节(如黄敏儿、唐淦琦、谭冬雪、李珍珍,2013)、工业组织(如周丽芳、廖伟伦、蔡松纯,2013)等多个领域,但其信度系数大小差异很大,有的只有0.50左右,有的则可以达到0.70左右。因此有必要对其信度进行综合考察。具体而言,本研究试图回答以下三个问题:①这份量表在不同研究中的信度表现如何?②哪些因素会影响它的信度?③在今后的研究中如果希望提高其信度,应该注意哪些问题?
二 方法
(一)研究取样
考虑到目前使用中庸9题量表做研究并正式发表的文章数量有限,本研究使用的数据主要来自2013年在厦门大学举办的第二届“中庸心理学研究”研讨会的会议报告(共5个)、中山大学心理学系2009级本科生“心理测量”课上关于中庸的系列研究(共7项),以及杨中芳所提供的2组数据——分别来自发表在《社会学研究》杂志上的《中庸实践思维体系构念图的建构效度研究》一文(杨中芳、林升栋,2012)和发表在台北《本土心理学研究》上的《中庸信念/价值量表之修订》一文(黄金兰、林以正、杨中芳,2012)。鉴于现有的14项研究中,只有3项研究考察过重测信度,因而我们把重点放在内部一致性信度的概化分析上。
(二)测量工具
黄金兰、林以正、杨中芳(2012)修订的“中庸信念/价值量表”共有9道题,每道题有两个陈述句,分别为符合中庸的陈述句与违反中庸的陈述句。被试需要先在两个陈述句中选择一个比较同意的陈述句,然后在7点李克特量表上选择对该陈述句的同意程度,数字越大表示越同意。如果被试选择符合中庸的陈述句,则该题得分为在7点量表上所选的分数;如果被试选择违反中庸内涵的陈述,该题得分为7点量表上所选的分数的反向计分,即被试选1则记作7,选2则记作6,依此类推。量表最后总分为被试的中庸得分,代表被试持有中庸信念或价值的倾向程度,分数越高,代表这种信念或价值的倾向性越强。
三 结果
(一)重测信度
从所获得的资料来看,共有3项研究测量了中庸9题量表的重测信度,见表1。黄金兰等(2012)在检验中庸9题量表的信效度时,选取74名大学生被试,间隔八周之后重测,其重测信度为r=0.63, p<0.001。朱敏等(2011)以中山大学学生为样本,施测间隔为三周,两次测量的总分相关显著,r=0.589, p<0.001。杨中芳和林升栋(2012)在中庸相关量表的信效度研究中对中庸9题量表进行重测信度检验,以厦门大学学生为样本,施测间隔为两周,r=0.652, p<0.05。
表1 重测信度

根据Lloyd、Streiner和Shannon(1998)提出的重测信度系数最好应在0.70以上的标准,中庸9题量表的重测信度不甚理想,其稳定性还有待提高。
(二)内部一致性信度
1.描述统计
本研究共收集到14项对中庸9题量表内部一致性信度进行报告的研究,具体情况汇总于表2,样本量在36~783;总体样本量为3120。如表3和图1所示,Cronbach's alpha系数最大值为0.76,最小值为0.46,呈显著负偏态,偏态系数为 -0.56(SE=0.60),峰度系数为 -1.25(SE=1.54),中位数为0.71,均值为0.65(SD=0.10)。
表2 各研究的基本情况(N=3120)

续表


图1 14项研究中信度系数的频次分布
表3 各研究的Cronbach's alpha值以及效果量(95%置信区间)

信度系数的计算基于项目个数以及项目间的平均相关程度(Nunnally& Bernstein, 1994),根据元分析的计算步骤(Borenstein et al., 2005),各研究的效果量(mean effect size)、对应的95%置信区间的取值范围如表3所示,14项研究的平均效果量为0.65(SD=0.10)。
在多个RG研究中,效果量会根据研究的样本量赋予权重(Hunter&Schmidt, 2004),这里经过计算后的加权平均效果量(mean weighted effect size)为0.68(SD=0.09)。由于alpha系数是一个明显的负偏态分布(Kolmogorov—Smirnov,简称K—S,检验统计值为0.23, df=14, p=0.042),为了使其正态化,根据Rodriguez和Maeda(2006)的建议,通常要进行T值转换再计算,转换公式为T=(1-rα)1/3。T转换后的平均效果量为0.70(SD=0.08)。而要计算T转换后的加权平均值,则要使用的权重为转换后alpha方差的倒数,即 wi=1/vi。计算vi的公式为:

因此,经过计算后T加权平均效果量为0.71(SD=0.08)。可见,经过T转换后的信度系数较未转换的信度系数得到明显提高,而且经过加权后的信度系数也较未加权的信度系数的误差范围更小,更稳定。
综上,中庸9题量表的信度系数表现还是值得称赞的,其加权平均值范围在0.59~0.77;当矫正正态分布之后,其加权平均值范围在0.63~0.77。这个信度水平对一个信念/价值量表而言,是可以接受的。
2.同质性分析
同质性分析用来考察不同研究之间的信度系数是否同质,也就是说,除了取样误差之外,有没有其他变量影响这些信度系数。本研究使用Q检验来评价多项研究Cronbach's alpha效果量方差的同质性(Rodriguez &Maeda, 2006)。基于随机效应模型的原假设,符合 χ2 分布的Q(13)=81.19, p<0.0001,说明研究之间的方差不仅仅是由样本误差造成的。
3.敏感度分析
根据Vacha-Haase(1998)的观点,RG元分析必须包括三个步骤:①综合多项研究对某特定量表的信度进行考察;②计算各研究之间信度系数的差异;③分析各研究之间信度系数差异的来源。从上面的同质性分析中已经看出各研究之间的信度系数存在差异。那么是哪些因素造成这些差异呢?根据我们所收集的这些研究的样本情况,我们感兴趣的变量有:样本量、性别比例、样本来源(来自学生群体还是非学生群体)。
通过相关分析,得到样本量、性别比例、样本来源与未加权平均信度系数以及T转换后的未加权平均信度系数的相关系数(见表4)。可见,样本量对信度系数的影响较大,在样本量小的情况下,中庸9题量表的信度值会偏低;而性别比例以及样本来源虽然对平均信度值有所影响,但只要经过正态化处理之后,这种影响就可以降低甚至可以忽略。
表4 信度系数估计值与样本特点变量之间的相关系数(N=14)

∗p<0.05, ∗∗p<0.01。
最后,根据Rodriguez与Maeda(2006)的建议,我们使用加权最小二乘法(weighted least square, WLS)将各项研究的样本特点变量放到因变量为T转换后的信度系数的回归方程中,考察各变量对信度系数的影响。在之前发表的许多RG研究文章中,研究者往往忽视分数方差异质性的问题。如果存在异质方差却直接应用普通最小二乘法(ordinary least square, OLS),往往会带来不良后果,比如参数估计方差偏大,显著性检验失真,预测精确度降低,等等(宋廷山、李杰,2007)。而消除异质方差的基本思路是将原模型加以“变换”,使得“变换”后的模型具有方差齐性。因此在针对T转换后的信度系数的回归方程时可利用WLS消除异方差。这里的加权变量为每个样本信度系数的方差估计值的倒数,其计算方法与T转换后加权平均值的计算方法一样(Hakstian & Whalen,1976; Wheeler et al., 2011)。
因此,本研究将样本量、性别比例和样本来源(二分变量)3个变量一同放入因变量为T转换后的信度系数的回归方程中,此3个变量共解释全部信度系数变异总量的55%(R2=0.55;调整后的 R2=0.41)。表5列出了各因子的预测系数,可见样本量在这几个变量中最能预测信度系数,样本量大的时候,中庸9题量表的信度系数也大。
表5 T转换后信度系数的WLS回归结果

根据Cohen(1988)提出的关于 R2效果量大小的标准,R2=0.0196(效果小), R2=0.013(效果中), R2=0.26(效果大),样本量这一单一变量解释回归方程的效果量较大。由此可见,中庸9题量表的信度水平主要受研究样本量的影响。
四 讨论
本研究通过14项不同研究的数据,综合考察了中庸9题量表的信度水平。结果表明,其信度水平尚在可接受的范围内,表明这一量表的稳定性与可靠性。
在对信度水平影响因素的考察中,本研究考察了三个变量,分别是样本量、性别比例和样本来源。结果表明,对信度水平影响最大的因素是样本量的大小,样本量越大,其信度水平越高、越稳定;而被试的性别比例以及是否为学生样本对信度水平的影响都不大。
由于这一量表的开发、修订时间并不长,目前所积累的研究数量还比较少。另外,由于有些研究对年龄、数据收集方式等资料报告不全,因而在本研究中没能涉及更多可能影响信度水平的变量。而这些问题都值得今后去探究。
参考文献
高瞻、李新天、许律琴、李炳洁,2013, 《抑郁患者情绪调节灵活性的作用》, 《中国健康心理学杂志》第21期,第1294~1296页。
贺、罗粉单、郑永玉、刘玉清、陈凌风,2011, 《中庸信念与大五人格的关系》,中山大学心理学系心理测量课程论文。
黄金兰、林以正、杨中芳,2012, 《中庸信念/价值量表之修订》,(台北)《本土心理学研究》第38期,第3~41页。
黄敏儿、唐淦琦、谭冬雪、李珍珍,2013, 《情绪调控之中庸之道》,第二届“中庸心理学研究”研讨会,厦门,1月22~24日。
焦璨、张洁婷、吴利、张敏强,2010, 《MMPI在中国应用的信度概化研究》, 《华南师范大学学报(社会科学版)》第4期,第48~52页。
李敏、胡街华、赵丽仪、江珊、钟文驹、施炜,2011, 《中庸与认知灵活性的关系探究》,中山大学心理学系心理测量课程论文。
李婷妮、戴晓天、周海丽、何珊、黄利兰,2011, 《不同评价下心理弹性与中庸对单词再认任务的影响》,中山大学心理学系心理测量课程论文。
林升栋、杨中芳,2012, 《中庸相关量表的信、效度相关研究》, 《社会心理研究》第3期,第1~19页。
宋廷山、李杰,2007, 《回归模型的异方差性消除方法探讨——以SPSS和Eviews为分析工具》, 《统计教育》第4期,第6~7页。
阳中华、邓云龙、陈向一,2013, 《中庸实践思维对大学生心理健康教育的借鉴》,《现代大学教育》第1期,第103~106页。
杨潮涌、杨茜茜、赵祥东、郑展能、何锦英、罗鑫,2011, 《中庸与人际关系相关研究》,中山大学心理学系心理测量课程论文。
杨钜东、杨瀚、迟骋、邹健华、冯俊壹,2011, 《探究大学生中庸信念对自我效能感与社交焦虑关系的调节或中介作用》,中山大学心理学系心理测量课程论文。
杨中芳、林升栋,2012, 《中庸实践思维体系构念图的建构效度研究》, 《社会学研究》第4期,第167~186页。
杨中芳、赵志裕,1997, 《中庸实践思维初探》,第四届华人心理与行为科际学术研讨会,台北,5月29~31日。
周丽芳、廖伟伦、蔡松纯,2013, 《中庸思维在领导者行为与部署效能间的作用》,第二届“中庸心理学研究”研讨会,厦门,1月22~24日。
朱敏、谢怡冰、武亚雪、侯连泽、罗智尹,2011, 《中庸价值量表信效度分析》,中山大学心理学系心理测量课程论文。
Beretvas, S. N., Meyers, J. L., &Leite, W. L.(2002). A reliability generalization study of the Marlowe-Crowne Social Desirability Scale. Educational and Psychological Measurement, 62,570-589.
Beretvas, S. N., & Pastor, D. A.(2003). Using mixed-effects models in reliability generalization studies. Educational and Psychological Measurement,63, 75-95.
Borenstein, M., Hedges, L., Higgins, H. & Roth, H.(2005). Comprehensive meta-analysis(version 2). Englewood, NJ: Biostat.
Chou, L. -F., Chu, C. -J., Yeh, H. -C., & Chen, J.(2014). Work stress and employee well-being: The critical role of zhongyong. Asian Journal of Social Psychology, 17, 115-127.
Cohen, J.(1988). Statistical power analysis for the behavior sciences. New York:Academic Press.
Deditius-Island, H. K., &Caruso, J. C.(2002). An examination of the reliability of scores from Zuckerman's Sensation Seeking Scales, Form V. Educational and Psychological Measurement, 62, 728-734.
Hakstian, A. R., & Whalen, T. E.(1976). A k-sample significance test for independent alpha coefficients. Psychometrika, 41,219-231.
Hunter, J. E., &Schmidt, F. L.(2004). Methods of meta-analysis: Correcting error and bias in research findings(2nd ed.). Thou-sand Oaks, CA: Sage.
Lloyd, S., Streiner, D., & Shannon, S.(1998). Predictive validity of the emergency physician and global job satisfaction instruments. Academic Emergency Medicine, 5, 234-241.
Nunnally, J. & Bernstein, I.(1994)Psychometric theory(3rd ed.). New York:McGraw-Hill.
Peterson, R. A.(1994). A meta-analysis of Cronbach's coefficient alpha. Journal of Consumer Research,21, 381-391.
Rodriguez, M. C., & Maeda, Y.(2006). Meta-analysis of coefficient alpha. Psychological Methods, 11,(3), 306-322.
Shields, A. L., & Caruso, J. C.(2004). A reliability induction and reliability generalization study of the Cage Questionnaire. Educational and Psychological Measurement, 64, 254-270.
Vacha-Haase, T.(1998). Reliability generalization: Exploring variance in measurement error affecting score reliability across studies. Educational and Psychological Measurement,58,6-20.
Wheeler, D. L., Vassar, M., Worley, J. A., & Barnes, L. L. B.(2011). A reliability generalization meta-analysis of coefficient alpha for the Maslach Burnout Inventory. Educational and Psychological Measurement, 71, 231-243.