三、研究方法与技术路线
(一)文献资料法
以“治理”“社会治理”“公立医院”“社会评价”“社会职责”“社会责任”“公益性”“患者满意度”“工作满意度”“医生工作满意度”等为检索关键词在中国知网、万方医学网资源、维普、ISI Web of Knowledge、PubMed等数据库检索2000—2016年的期刊文献,及《医院管理评价指南(2008版)》《医院评价标准(征求意见稿)》《二级综合医院评审标准(2012年版)》《三级综合医院评审标准实施细则(2011年版)》《关于推进县级公立医院综合改革的意见》(国卫体改发〔2014〕12号)和《国务院办公厅关于城市公立医院综合改革试点的指导意见》(国办发〔2015〕38号)等政策文件,对检索文献或资料进行阅读、分析与归纳:①学习社会治理、社会评价理论的发展、内涵及意义;②综述国内外公立医院评审或评价研究及实践经验,分析公立医院评价当前存在的问题,根据国内外教育、环境等领域的社会评价前沿理论或实践,提出研究思考与启示。
(二)专题小组讨论法
通过专题小组讨论,获得公立医院社会评价初选的6类评价主体及指标体系初步框架,为进一步开展专家咨询奠定基础。选择政府相关人员、医院工作人员、社会专业组织人员、患者及家属、社会媒体代表等相关人员进行专题小组访谈,探讨其对公立医院社会评价的认知、态度及参与意愿,为《基于社会治理视角的公立医院社会评价主体及指标研究专家咨询表》的设计及修正提供依据。邀请患者及其家属、社会公众代表、医院管理者参与患者满意度测评问卷的设计与讨论,根据预调查的结果及专家咨询的意见筛选评价指标体系,最终形成测评问卷。焦点群体访谈对象组成见表3-1。
表3-1 焦点群体访谈对象组成
(三)问卷调查法
1.运用问卷调查法探索利益相关主体对公立医院社会评价的认知及态度。
面对面问卷及访谈调查的对象主要选取人群:政府相关部门及卫生行政管理人员、医务工作者、患者及其家属、社会公众代表、社会媒体代表等。调查及访谈的内容主要包括公立医院利益相关主体对社会评价的认知、意愿、态度、行为及社会治理预期与医患满意度测评等。其问卷发放及回收情况见表3-2。
表3-2 利益相关主体对公立医院社会评价的认知、态度及意愿调查问卷回收情况
2.运用问卷调查法测评患者满意度
系统分析国内外患者满意度研究进展及趋势,从医疗服务患者满意度的形成机制出发,科学界定患者满意度的概念及内涵,并在专家咨询的基础上从医疗服务环境、服务效率、服务态度、服务技术和医疗费用5个维度分别设计门诊患者满意度测评问卷和住院患者满意度测评问卷,问卷内容包括以下几个方面。①基本情况,包括性别、年龄、户籍、文化程度、就诊频率等。②医疗服务患者满意度,包括服务环境、服务效率、服务态度、服务技术和医疗费用5个维度,得分为百分制;每个维度分别有4道题,采用5级评分制,每维度即20分制。③患者对服务环境、服务效率、服务态度、服务技术和医疗费用5个维度的重要性排序以及回答的把握程度。调查地点及问卷发放回收情况见表3-3。
表3-3 满意度测评问卷回收情况统计
3.运用问卷调查法测评医务人员工作满意度
通过文献综述及现场访谈医务人员,并借鉴员工满意度量表发现,国内外医务人员工作满意度的影响因素、测评量表的构建以及条目筛选,可以从工作本身、工作压力、人际关系、工作条件、工作回报、组织管理六维度设计医务人员工作满意度测评问卷。6个维度为工作本身(2个条目)、工作压力(2个条目)、人际关系(4个条目)、工作条件(4个条目)、工作回报(4个条目)和组织管理(4个条目)。量表采用Likert 5级评分法,从左到右依次为“完全不赞同”“不赞同”“一般”“赞同”“完全赞同”,得分依次为1~5分,满意度越高,评分越高。其调查地点及问卷发放回收情况见表3-3。
(四)Delphi专家咨询法
向该领域有丰富知识经验的专家咨询,并对专家的积极程度、权威程度、协调程度进行量化计算。专家咨询共有两个部分。
第一部分为公立医院社会评价主体的选择。在文献研究的基础上,拟定“独立性、专业性、权威性、主动性”为评价主体“适宜性判断标准”,初步筛选了政府相关公务人员、医务工作者、社会专业组织(第三方研究机构、医学会、医院协会、医师协会等)、患者及家属、社会公众、公共媒体代表共6类评价主体。运用Delphi专家咨询法,邀请24位国内从事基本医疗卫生服务与管理评价研究及实践的具有副高级职称及以上的专家参与咨询,专家分别集中在医疗卫生管理与政策、临床及预防医学、卫生信息统计及管理、社会保障及基层治理等领域,平均工作年限为15年。请专家对初步拟定的6类评价主体在何种程度上符合“适宜性判断标准”进行重要性评分,打分标准为5级评价:很重要=5,重要=4,一般=3,不重要=2,很不重要=1;再对初筛的评价主体在何种程度上符合其“适宜性判断标准”进行评分,评分范围由弱到强为1~10分。
第二部分为公立医院社会评价指标的选择。在前期文献研究和专题小组讨论的基础上,评价指标体系由初始的96个删减到39个,包括3个一级指标、11个二级指标和39个三级指标。整理分析专家对初选指标的结构、内容、权重评议及指标删减建议。依据Likert 5分量表法赋值打分情况,最终修正并确立评价指标及权重系数。专家咨询表的主要内容包括:①引言,说明研究背景、目的和填写说明等;②专家的一般情况,包括职务、职称和工作领域等;③指标体系的重要性与可操作性评分;④专家的熟悉程度和判断依据自评表。在咨询过程中,专家对指标的重要性与可操作性进行打分,打分标准为五级评价:很重要/很好=5;重要/较好=4;一般/一般=3;不重要/较不好=2;很不重要/很不好=1。请专家对二级指标是否属于一级指标、对三级指标是否属于二级指标做出“是”或“否”的判断。均值表示所有专家对指标评价的平均分值,其值越大,表明该指标越重要,操作性越好;标准差与变异系数反映专家意见的集中程度,其值越小,表明专家对该指标的评价意见越集中,协调性越好。具体计算过程如下:
(1)计算全部指标评价等级的算术平均值。按专家对各指标的评价等级递减排队,给每个指标赋予相应的秩次,对j 指标评价的专家分别给出等级(秩次)求和就是j 指标的等价总和。
式中,Sj为j 指标的等级和;Rij为i专家对j 指标的评价等级。很明显,Sj越小,该指标越重要。
式中,Msj为全部评价指标评价等级的算术均数。
(2)计算指标等级和的离差平方和。
dj=Sj-Msj
式中,dj为j 指标的离均差。
式中,j为全部n个指标等级和的离均差平方和。
(3)协调系数W的计算。
式中,W为所有m个专家对全部n个指标的协调系数;m为专家总数;n为指标总数。
当等级相同时,上式中的分母要减去修正系数Ti,此时W的计算如下:
式中,Ti为相同等级指标。
式中,L为i专家在评价中相同的评价组数;ti为在L组中相同的等级。
协调系数W在0~1, W越大,表示协调程度越好;反之,意味着专家协调程度越低。
(4)协调程度的显著性检验。
根据自由度df和显著性水平a,从χ2值表中查得χ2界值。如果χ2>χ2界值,则可认为协调系数经检验后有显著性,说明专家评价或预测意见协调性好,结果可取。反之,χ2值很小,如果P>0.05,则认为专家意见评价或预测的结论的可信度差,结果不可取。
(五)数理统计法
本研究主要运用的数理统计方法有频数分析、构成比、χ2检验、t检验、克朗巴哈a系数、因子分析和聚类分析,每种方法的具体分析内容见表3-4。
表3-4 数理统计方法及其分析的内容
(六)综合评价法
1.Topsis法
Topsis法是系统工程中有限方案多目标决策分析常用的一种方法,它是用归一化后的原始数据矩阵找出有限方案中的最优方案和最劣方案(分别用最优向量与最劣向量表示),然后通过计算与最优方案和最劣方案之间的欧氏距离,获得各评价对象与最优方案的相对接近程度,并以此作为评估优劣的依据。相对接近程度取值在0~1。该值越接近1,表示越接近最优水平;反之,该值越接近0,表示越接近最劣水平。
(1)原始数据的收集:设有n个评价对象,m个评价指标,得到一个n×m的原始数据矩阵。
(2)评价指标同趋势化。在用Topsis法进行评价时,要求所有指标变化方向一致,即将高优指标转化为低优指标,或将低优指标转化为高优指标,通常采用后一种方式。转化方法常用倒数法,即令原始数据中低优指标xij(i=1,2,…, n; j=1,2, …, m),通过变换而转化成高优指标,然后建立同趋势化后的原始数据表。
(3)对同趋势化后的原始数据矩阵进行归一化处理,建立归一化矩阵Z。归一化公式如下:
经归一处理后的矩阵Z为(4)归一化矩阵Z的最优向量和最劣向量,即正理想解和负理想解。
式中,i=1,2, …, n; j=1,2, …, m。和分别表示评价对象在第j 个指标的最大值和最小值。
(5)计算各评价对象指标值与正理想解和负理想解的距离和。
式中,wj表示指标j 的权重系数。若各指标权重相等,则wj=1。
(6)计算各评价对象指标值与正理想解和负理想解的相对接近程度Ci值。
(7)依据相对接近程度系数Ci的大小对评价对象的优劣顺序进行排序。Ci的取值范围为[0,1], Ci值越接近1,表明评价对象越接近正理想解;Ci值越接近0,表明评价对象越接近负理想解。
2.秩和比法
秩和比法是把各评价指标按其指标值的大小进行排序得到秩次,再用秩次作为变量进行加权综合为秩和比,最后以秩和比的大小对各单位进行排序。同时也以秩和比为基础,运用统计分布、概率论及回归分析等理论和方法对各单位按效益的优劣进行分类。其具体计算步骤如下:
(1)根据评价目的,选择适当的评价指标。
(2)确定各指标权重。
(3)列原始数据表。将n个评价对象的m个评价指标排成n行m列的原始数据表,如各个指标不等权,则各指标权重系数单独列一行。
(4)编秩。正指标以最大指标值为1,次大为2,余类推;反指标以最小指标值为1,次小为2,余类推。正指标为指标值越大、效益越好的指标,反指标为指标值越小、效益越好的指标。
(5)计算秩和比。当各评价指标权重相同时,根据公式 RSRi=计算秩和比。式中,i=1,2, …, n; j=1,2, …, m; Rij表示第i行第j列元素的秩。当各评价指标权重不同时,计算加权秩和比WRSR,其计算公式为。式中,i=1,2, …, n; j=1,2, …, m; Rij表示第i行第j 列元素的秩,Wj为第j 个评价指标的权重,。按WRSR值对评价对象的优劣进行直接排序。
(6)确定WRSR 的分布。WRSR 的分布是指用概率单位Probit表达的WRSR值特定的向下累计频率。其方法为:编制WRSR频数分布表,列出各组累计频数∑f;确定各组WRSR的秩次R 及平均秩次;计算向下累计频率;将百分率p换算为概率单位Probit, Probit为百分率p对应的标准正态离差u加5。
(7)计算回归方程。以累计频率所对应的概率单位值Probit为自变量,以WRSR值为因变量,计算回归方程:WRSR=a+bProbit。
(8)分档排序。根据RSR值对评价对象进行分档排序,分档依据为标准正态离差u。依据各分档情况下概率单位Probit值,按照回归方程推算所对应的WR S R估计值对评价对象进行分档排序。具体分档数由研究者根据实际情况决定。
3.灰色关联分析法
关联度是表征两个事物的关联程度,是因素之间关联性大小的量度。灰色关联分析是灰色系统理论提出的一种系统分析方法。灰色系统理论把一般系统理论、信息论、控制论的观点和方法延伸到社会、经济、生态、医学等抽象系统,结合数学的方法,发展为一套解决信息不完备系统的理论和方法。其基本思路是:根据各比较数列构成的曲线与参考数列构成的几何相似程度来确定比较数列与参考数列之间的关联度。关联分析是发展态势的量化比较分析,实质上是几何曲线间几何形状的分析比较,即几何形状越接近,则发展变化态势越接近,关联度越大。设有n个评价对象,m个评价指标,原始数据见表3-5。其计算基本步骤具体如下:
表3-5 原始数据
(1)确定参考数列{X0(j)}。根据研究目的,指定一个参考数列{X0(j)}(j=1,2, …, m),参考数列可表示为X0(1), X0(2), …, X0(m),可取各个指标的最小值、最大值、均数或者一个标准值作为参考数列。
(2)确定比较数列{Xi(j)}。将各评价对象的诸评价指标作为比较数列{Xi(j)}(i=1,2, …, n; j=1,2, …, m),表示为 Xi(1), Xi(2), …, Xi(m)(i=1,2, …, n)。
(3)对参考数列和比较数列做无量纲化处理。由于各指标之间存在量纲上的差异性,数据之间也不存在运算关系,因此需要对这些原始数据进行生成处理,将其化为[0,1]区间内的数。对数据进行生成处理可采用以下公式:
式中,minXi(j)和maxXi(j)分别表示第j 项指标在m方案中的最小值和最大值。
(4)求差数列Δi(j)。Δi(j)=|X0(j)-Xi(j)|, Δi(j)表示第i个评价对象第j 个指标数据与参考数据中第j 个指标的数据绝对差。
(5)计算关联系数γi(j)。γi(j)表示第i个评价对象第j 个指标数据与参考数列中第j 个指标数据的关联系数。
式中,,即取各个评价对象各个评价指标差数列中的最小值为,即取各个评价对象各个评价指标差数列中最大值为b; ρ=0.5,为分辨系数。
(6)计算第i个评价对象的灰色关联度γi。
(7)排序。将i个评价对象的灰色关联度γi根据大小排序,得出评价对象的优劣顺序。
4.加权累加综合评分法
将各评价指标所得评分值与相应的权重系数相乘后所得的分值相加,然后按总分高低确定各评价对象的优劣顺序。
5.综合指数法
综合指数法是指根据指数分析的基本原理,在确定权数后用加权算术平均数指数公式对评价对象进行综合评价分析的一种方法。通过综合指数评价法建立指数分析模型,目的是将多项指标通过指数分析模型综合成一项指标,并能科学、全面地反映调查对象的客观事实。其主要步骤包括以下几步。
(1)建立一套科学的评价指标体系,合理确定各个指标的目标值及权重。
(2)指标值标准化。正向指标按公式Y=X/M,负向指标按公式Y=M/X计算(Y为标准化值,X为指标值,M为参考值)。
(3)确定权重系数。参与综合评价的各个指标在评价中的重要程度被称为权重,必须给每个指标赋予相应的权重系数(W),使权重数量化。权重系数值在0~1。本研究采用德尔菲法与秩和比法相结合的方法。排定各项指标标准化值按大小给顺序号(称为秩次,符号为R),根据公式RSR =∑R/mn(m为指标个数,n为评价主体的类别数)和SR=RSR/∑RSR,分别计算各个指标的秩和比(RSR)和分比(SR)。由10位专家小组成员各自给每个指标赋予权重值,然后计算其算术平均数作为经验权数(W′),计算各指标的分比值与经验权数的乘积(SR·W′),进而根据公式W=(SR·W′)/∑(SR·W′),确定各项指标的权重系数(W)。
(4)综合评价结果:按公式I=WY,得到各评价指标的综合指数(I)。
(七)缺失数据处理
1.缺失数据产生的原因、模式和机制
(1)缺失数据产生的原因。问卷调査中出现缺失数据的现象比较普遍,而数据缺失将对统计分析造成较大的影响,在统计分析之前应加以处理。产生数据缺失的原因主要有两个方面:调査中的无回答和调査中的不可使用信息。调查中的无回答分为单位无回答和项目无回答两种情况。单位无回答是指调查中没有从样本单位获得任何调查问卷中所需要的信息,如调查人员没有找到被调查者、被调查者拒绝接受或无法接受调查等;项目无回答是指调查虽然进行,但被调查者只提供了调查问卷中的一部分信息,而没有提供调查问卷中的另一些信息。调查中的不可使用信息主要指在数据录入过程中出现错误或者调査过程中的记录错误等所造成的明显的错误信息,常表现为异常数据,这些错误在数据的逻辑审核中被发现后直接剔除,造成数据缺失。多数情况下,调查中的不可使用信息通过单位或项目剔除后可以转化为调查中的无回答。
(2)缺失数据的模式。缺失数据的模式描述了在整个数据集中,哪些数据被观测到了,而哪些数据缺失了。它有助于我们认识数据集中不同变量之间的相互关系,为寻找更好的解决方法提供有价值的线索。缺失数据的模式主要有单变量缺失模式、多变量缺失模式、单调缺失模式和一般缺失模式4种。本研究调査中出现的项目无回答属于一般缺失模式。
(3)缺失数据的机制。缺失数据的机制描述了缺失数据与数据集中变量值之间的关系,从本质上说明数据是如何缺失的。不同学者对缺失数据机制有不同的划分:金勇进将缺失数据机制划分为6种类型,分别为完全随机缺失(missing completely at random, MCAR)、随机缺失(missing at random, MAR)、取决于协变量缺失(covariate-dependent missing, CDM)、非随机缺失(not missing at random, NMAR)、取决于随机影响的缺失(random-effect-dependent missing)和取决于前期数据的缺失(early-data-dependent-missing)。
2.异常数据的辨别与处理
在处理缺失数据之前,应进行异常数据的辨别与处理,本研究主要采用Bollen方法进行异常数据辨别。Bollen方法是一种不依赖于模型的异常值辨别方法,具体过程:设X是一个n×k的数据表,其中,n为观测值个数,k为显变量个数;令aii为矩阵A主对角线上的元素,其中A=X(X′X)-1X′; aii的取值范围为0~1,反映了第i个观测值偏离所有变量均值的“距离”。若∑aii=k,则平均距离为k/n。如果某个观测值的aii取值靠近1,则说明该观测值是个典型的观测值;如果aii取值靠近0,则说明该观测值很可能是个异常值。对异常数据采用直接剔除的方法,然后按缺失数据进行统一处理。
3.缺失数据的处理方法
缺失数据的处理方法主要有加权调整法、插补法、参数似然法以及纵向或层次数据的处理方法等。常用的加权调整法有Politz-Simmons调整法、加权组调整法、再抽样调整法、事后分层调整法、迭代分层法、校准法和双重稳健加权法等;传统的插补法有均值插补、演绎插补、比率插补、回归插补、最近距离插补、热卡插补、冷卡插补、随机插补等;多重插补法主要有预测均数匹配法(predictive mean matching, PMM)、趋势得分法、马尔柯夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC)、判别分析和Logistic回归法、MI算法等。参数似然法主要有EM算法。
本研究无论是在预测试阶段还是实证研究阶段,调查中都出现了一定程度的数据缺失,对缺失数据的处理所采用的主要方法有2种:序贯热卡插补法和分层均值插补法。
(1)序贯热卡插补法:首先对数据分层,确定插补的类型,然后在每层中按照某种顺序对单元排序。对于有数据缺失的单元,用同一层中最后一个被计算机读取的数值插补。
(2)分层均值插补法:在进行插补之前,利用辅助信息对总体进行分层,使各层中的各单元尽可能相似,然后在每一层中,用该单元有回答的均值插补该层无回答的缺失值。
(八)正态性检验
正态分布是非常重要的分布,它能描述许多随机现象。总体服从正态分布是许多统计方法应用的基础。因此,进行数据的正态性检验是大部分统计分析的第一步。
1.正态分布图形检验
正态分布的图形检验主要有频数分布图、P-P概率图和Q-Q概率图3种形式。频数分布图可以用来直观地描绘样本数据的分布特征;P-P概率图即百分位数图(percent percent plot,简称P-P图),是根据变量的累积比例对所指定的理论分布累积比例绘制的图形;Q-Q概率图即分位数图(quantile quantile plot,简称Q-Q图),是根据变量分布的分位数对所指定的理论分布分位数绘制的图形。通过Q-Q图和P-P图都可以直观地探査样本数据是否与某个概率分布的统计图形相一致,如果被检验的数据符合所指定的分布,则代表样本数据的点簇在一条直线上。当描绘的分布其尾部有偏离时,Q-Q图的拟合效果要优于P-P图。图形检验虽然不是严格的检验方法,但是能够提供直观的信息,这对于任何一种正态分布的检验都是一种必要的补充。
2.正态假设检验
正态假设检验根据备择假设的不同可分为两种:当备择假设中指定对正态分布偏离的形式时,检验称为有方向检验;当备择假设中未指定对正态分布偏离的形式时,检验称为无方向检验。如果关于偏离正态分布的形式的假设已有设定,如与正态分布具有不同的偏度和峰度,则应该使用有方向检验,有方向检验基本上是单侧的;当不存在关于正态分布偏离形式的实质性信息时,推荐使用无方向检验。
有方向检验主要有偏度检验、峰度检验以及偏度峰度联合检验。其中,偏度是用于衡量分布的不对称程度或偏斜程度的指标;峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。无方向检验主要有Kolmogorov-Smir-no(KS)检验、Shapiro-Wilk检验、Anderson-Darling(A-D)检验、Cramer-von-Mises检验、Pearson's chisquare检验等。有研究认为,对于总体参数未知时的样本数据,KS检验方法的准确性不高,不建议采用;当样本量小于等于30时,A-D检验很有效,但在大样本时可能被拒绝正态性。本研究对调查所得数据进行正态性检验,主要采用图形检验和假设检验相结合的办法。其中,假设检验主要用于基于峰度和偏度的Jarque-Bera检验以及Shapiro-Wilk检验。
(九)调査问卷的信度和效度
本研究通过信度和效度分析,对调査问卷的可靠性和有效性进行检验。只有通过高信度和高效度的问卷获得的数据,才能保证满意度测评结果的可靠性。
1.信度检验
信度(reliability)即可靠性,是指测量工具对所测指标测量的一致性和稳定性。其中,一致性表示测评内部是否相互符合;稳定性表示在不同的测评时点下,测评结果前后一致的程度。前者测量的是外在信度,后者测量的是内在信度。信度指标多以相关系数表示,信度系数介于0~1,数值越大,信度越高,说明测评越可靠。具体评价方法主要有以下几种。
(1)重测信度。重测信度又被称为稳定性系数,是指用同样的问卷对同一组访问对象间隔一定时间的重复测试,计算两次测试结果的相关系数。它反映两次测验结果有无变动,也就是测验分数的稳定程度,主要用Kappa系数和内部相关系数(interclass correlation coefficiont, ICC)来评价。在满意度测评中,被调査的是顾客,而调査的最终目的是为了提高顾客的满意度。如果对其进行两次同样的调查,可能会使被调査者不耐烦,违背调査的初衷,所以这种信度在满意度测评中不适用。
(2)复本信度。复本信度又被称为等值系数,即让被测对象一次填写两份问卷复本,计算两个复本的相关系数。这种方式要求除表达方式不同外,两份问卷的内容、格式、难度和对应题项的提问方式等方面都要完全一致。但在实际的问卷调査中,很难达到这种要求。因此,这种方法在满意度测评中也不适用。
(3)内部一致性信度。内部一致性考察的是测评的一致性,即反映测评的各项内容之间的相关程度,检验这些项目是否反映了同一独立概念的不同侧面,主要包括分半信度和Cronbach'α系数。
1)分半信度法(Black & Poter,1996)是将测量项目分成两部分,分别测算出相关系数,再用斯布(Spearman-Brown)公式确定整个测量的信度系数。在折半分析法中,可以采用多种拆分方法将一份问卷分成两组,通常使用随机法或奇偶法。由于拆分的方法很多,因而也就有多种不同的结果,这也是此方法的不足之处。
2)Cronbach'α系数是由美国教育学家Lee Cronbach(克伦巴赫)于1951提出的,是目前社会研究中最常使用的信度指标。Chuichill(1979)指出,Cronbach'α系数是评价内部一致性信度的首选,这种方法是用一组变量来测量同一信息的信度。该系数将任一项目的结果同其他项目的结果做了比较,避免了折半信度法的缺点,对测评问卷的内部一致性做了更为慎重的估计。系数的值在0~1,值越接近1,表示信度越高。这种方法适用于态度、意见式问卷(量表)的信度分析。美国统计学家小黑尔(Joseph F H)、安德林(Rolph E A)等指出,Cronbach'α系数大于0.7,则表示数据的可靠性比较高;也有一些学者认为Cronbach'α系数达到0.6就可以接受。
2.效度检验
量表的效度(validity)主要指测量数据与理想值的差异程度,以检验量表工具是否能真正测量出想要测量的内容,以此判断测量结果是否真正是研究者所预期的结果。通过效度评价可以对问卷进行有针对性的修改。效度主要有以下几种。
(1)表面效度:是指测量项目书面表达的意思是否为真正要测定的内容。这是一个主观指标,常由专家评阅确定。
(2)内容效度:是指组成问卷的项目是否包括了想要测量内容的各个方面,如果包括了各个方面,则内容效度较好。与表面效度一样,内容效度也是一个主观指标。
(3)校标效度:是指问卷测量结果与特定校标之间的一致程度,通常用测量结果和特定校标之间的相关系数来表示。相关系数越高,则校标效度越好,一般认为相关系数在0.4~0.8比较好。在实际评价的时候,根据所选择校标和所得结果在时间上的不同可分为同时效度和预测效度。在满意度测评中,主要考査的是预测效度。
(4)结构效度:是指问卷是否有理论上期望的特征。其又包括以下几个方面。①问卷测量结果与理论上测量结果的平行程度。②问卷评价的现象与其他现象之间的独立性。③问卷结果是否符合该问卷要评价现象的有关理论的预测。评价问卷结构效度常用的方法是因子分析法。
3.影响信度和效度的因素
影响信度和效度的主要因素分别是测量误差和偏差,在满意度测评中主要是问卷设计、样本选择和实际访问过程中造成的误差。①问卷设计:在进行问卷设计时,如果量表级数太少就会导致信息的丢失;而如果级数太多,则会超出受访者的判断能力。Nishisato和Toriz认为,七级式和十级式量表的信度较实际信度相比损失最少。同时,问卷的项目数越多,信度和效度越高。②样本选择:在其他条件不变的情况下,样本量越大,估计出的信度就越高。③测量过程:通过对访问员进行严格的培训、选择良好的访问环境、尽量保证受访者能够认真作答等方式确保高质量的访问过程。
本研究采用的是李克特十级量表,测评所用的问卷都是经过专家认可并小范围预测试过的,且预测试和正式调査的样本量均有一定的保证;调査人员也都是经过统一培训的,从而保证了测试结果具有较高的信度和效度。
(十)结构方程模型
结构方程模型(structural equation modeling, SEM)是从微观个体出发探讨宏观规律的统计方法,简而言之是利用联立方程组求解,能处理测量误差,又可分析潜在变量之间的结构关系。与传统的统计分析方法相比,结构方程模型没有严格的假定限制条件,同时允许自变量和因变量存在测量误差,并且无须所得数据之外的任何先验信息;可以将一些无法直接观测而又欲研究探讨的问题作为潜变量,通过一些可以直接观测的变量反映这些潜变量,从而建立起潜变量间的关系,也就是结构。结构方程模型是反映潜变量之间关系的因果模型(结构模型)与反映指标潜变量之间关系的因子模型(也叫测量模型)的组合。这种方法功能相对强大,能同时处理多个因变量,或者既是因变量,又是自变量的潜变量。但注意因果模型不是用于探索变量间的因果结构关系,而是需要事先假设变量间的结构关系,利用数据验证这种假设。
结构方程模型包括测量模型(measurement model)和结构模型(structural model)。测量方程模型是分析指标和潜变量之间的关系,结构方程模型是分析潜变量之间的关系。内生变量是指那些在模型或假设中,受其他变量(包含外生和内生变量)影响的变量,即在路径图中,有箭头指向它的变量;它们也可以影响其他变量。外生变量指在模型或假设中,只假设解释作用的变量,只影响其他变量,不受其他变量的影响;在路径图中,只有指向其他变量的箭头,没有箭头指向它。结构方程模型应用流程及分析框架如图3-1,其评价参考见表3-6。
图3-1 结构方程模型应用流程
表3-6 结构方程模型评价参考
1.测量模型
测量方程描述了内、外生潜变量与观测变量之间的关系。
式(1)中,Y=(y1, y2, …, yp)为内生显变量构成的向量,是η的观测指标;式(2)中,X=(x1, x2, …, xq)为外生显变量构成的向量,是ξ的观测指标;Λy(p × m)和Λx(q × m)为载荷矩阵;ε(p ×1)和δ(q ×1)为残差向量。
2.结构模型
结构方程描述了外生潜变量和内生潜变量的关系。
式(3)中,η=(η1, η2, …, ηn)为内生潜变量构成的向量;ξ=(ξ1, ξ2, …, ξn)为外生潜变量构成的向量;B(m×m)为内生潜变量的路径系数矩阵,描述的是潜变量之间的彼此影响;Г(m×n)为外生潜变量的路径系数矩阵,描述的是外生潜变量对内生潜变量的影响;ζ(m× 1)为残差项构成的向量,反映了η在方程中不能解释的部分。