上QQ阅读APP看书,第一时间看更新
第四章 秩和比法
第一节 基本概念
一、秩和比与秩和比法
我国统计学家田凤调教授于1988年提出秩和比法,此后,该方法广泛应用于医疗卫生领域的多指标综合评价、统计预测预报、统计质量控制等各方面。在此基础上,田凤调教授和多位学者不断对此方法进行了充实和扩展。
秩和比(rank sum ratio,RSR)指行(或列)秩次的平均值,是一个非参数统计量,具有0~1连续变量的特征。在综合评价中,秩和比综合了多项评价指标的信息,表明多个评价指标的综合水平, RSR值越大越优。
在一个 n行( n个评价对象) m列( m个评价指标)矩阵中, RSR的计算公式为:
(4-1)
式中 i=1,2,…, n, j=1,2,…, m, R ij表示第 i行第 j列元素的秩。
当各评价指标的权重不同时,计算加权秩和比 WRSR,其计算公式为:
(4-2)
式中 i=1,2,…, n, j=1,2,…, m, R ij表示第 i行第 j列元素的秩, W j为第 j个评价指标的权重, 。
RSR值无量纲,最小值为 ,最大值为: RSR max=1。
RSR的优越性主要表现为:综合能力强,可代替一些专用综合指数,也可显示微小变动,而对离群值不敏感;但其局限性主要为:指标值采用秩代换,会损失一些信息,且难以恰如其分地给各个指标编秩等。
秩和比法指利用 RSR进行统计分析的系列方法。其基本思想是:在一个 n行 m列矩阵中,通过秩转换,获得无量纲统计量 RSR;在此基础上,运用参数统计分析的概念与方法,研究 RSR的分布;以 RSR值对评价对象的优劣直接排序或分档排序或比较各组 RSR的可信区间。本法的理论意义在于,扩大了非参数统计的功能,并揭示了近代非参数统计与古典参数统计的结合点,使两者相互补充,相得益彰,为最终实现完全融合创造条件。
二、秩和比法的基本步骤
利用秩和比法对多个对象进行综合评价时通常可用两种方法:排序分档法和可信区间法。
(一)排序分档法
可计算各评价对象的 RSR值,对评价对象进行直接排序或分档排序,并可进一步检验是否为最佳分档。具体步骤如下:
1.根据评价目的选择恰当的评价指标
RSR寓有极强的综合力,除常用的评价指标外,还可容纳一些专用统计量的信息,如:样本含量 n、标准差 S、变异系数 CV等,以及根据已有指标计算得到的指标,如:变化量、发展速度等,或流行病学指标,如: OR、 RR、 PAR等,因此在进行综合评价时应根据评价目的选择最恰当的评价指标。
2.确定各指标权重。
3.列原始数据表
将 n个评价对象的 m个评价指标排成 n行 m列的原始数据表,如各个指标不等权,则各指标权重系数单独列一行。
4.编秩
编出每个指标各对象的秩是秩和比法运用成败的关键之一。编秩时,应充分体现专业要求,力求所编秩次无逻辑上的混乱,按照研究目的,用辩证的观点来编秩。常用的编秩技巧见下文。
5.计算秩和比
根据公式(4-1)或公式(4-2)计算秩和比,按 RSR值对评价对象的优劣进行直接排序。
6.确定 RSR的分布
RSR的分布是指用概率单位Probit表达的 RSR值特定的向下累计频率。其方法为:①编制 RSR频数分布表,列出各组频数 f,计算各组累计频数∑ f;②确定各组 RSR的秩次 R及平均秩次 ;③计算向下累计频率 ;④将百分率 p换算为概率单位Probit,Probit为百分率 p对应的标准正态离差 u加5;例如百分率 p=0.0250对应的标准正态离差 u=-1.96,其相应的概率单位Probit为5-1.96=3.04;百分率 p=0.9750对应的标准正态离差 u=1.96,其相应的概率单位Probit为5+1.96=6.96。
7.计算回归方程
以累计频率所对应的概率单位值Probit为自变量,以 RSR值为因变量,计算回归方程: 。
8.分档排序
根据 值对评价对象进行分档排序。分档依据为标准正态离差 u。常用分档情况下的百分位数 P X临界值及其对应的概率单位Probit值见表4-1。依据各分档情况下概率单位Probit值,按照回归方程推算所对应的 RSR估计值对评价对象进行分档排序。具体分档数由研究者根据实际情况决定。
表4-1 常用分档情况下的百分位数P X临界值及其对应的概率单位Probit值
9.最佳分档的检验
可以在按 RSR值对评价对象进行分档排序后进行是否最佳分档的检验,适合多组 RSR的比较。最佳分档的涵义是指各档方差一致,且 RSR差异具有显著性。最佳分档的准则为:参照常用分档情况下的百分位数 P X临界值及其对应的概率单位Probit值表,每档至少2例,尽量多分几组。检验步骤包括:
(1)方差一致性检验(Bartlett检验):
设经分析,将 RSR值分为 g档,记各档包含的评价对象数为 n i,各档 RSR均数为
、样本方差为 。假设检验为:
H 1:各总体方差不全相等
α=0.10
在 H 0成立的条件下,Bartlett检验统计量为:
(4-3)
式中 为合并方差,计算公式为:
(4-4)
通常,有 S 2 c= MS 组内。
按 α=0.10水准,查 χ 2界值表得 。若 ,则 P>0.10,不拒绝 H 0;反之,若 ,则 P≤0.10,拒绝 H 0,接受 H 1。
(2)统计检验( F检验、 q检验):
在方差一致的前提下,作统计检验。设全部评价对象数为 N, ,则各档 RSR比较的方差分析表如表4-2所示。
表4-2 各档RSR比较的方差分析表
若各档 RSR之间差别有统计学意义,可用SNK- q检验对各档 RSR进行两两之间的全面比较。检验统计量 q有专门的 q界值表,计算公式为:
(4-5)
式中,
(4-6)
, n i和 , n j为两对比档 RSR的均数和评价对象数。
(二)可信区间法
通过可信区间的计算,可以对两组或几组 RSR进行比较,在排序分档法基本步骤1~5的基础上,常用以下两种计算方法得到 RSR的可信区间:
(1)将 RSR当累计频率看待,作平方根反正弦代换,可得
(4-7)
式中,当 RSR为1时,以 代替, y的标准误为:
(4-8)
式中, N为各组调和均数,当分组较多,指标计算复杂,可用格子数代之,即 N= m× n。
y的双侧1- α可信区间为:
y± u α/ 2 S y
(4-9)
例如, y的双侧95%可信区间为 y±1.96 S y。
(2)将 RSR当相关系数看待,作反正切双曲代换,可得
(4-10)
Z的标准误为:
(4-11)
Z的双侧1- α可信区间为:
Z± u α/ 2 S Z
(4-12)
例如, Z的双侧95%可信区间为 Z±1.96 S Z。
各对比组的可信区间,如果交叉重叠少于一半,则按照 α水准,可以认为有统计学意义,对比组 RSR不同;如果交叉重叠超过一半,则按照 α水准,则还不能认为有统计学意义;如果交叉重叠恰好一半,下结论应慎重,最好结合其他检验方法考虑。
三、常用的编秩技巧
通常,可根据专业知识区分指标是高优还是低优,如:治愈率、人均期望寿命、受检率等可视为高优指标;失访率、单病种次均住院费用、漏诊率等可视为低优指标。有时,指标的属性要根据不同的研究目的确定,如:体重作为衡量青少年生长发育状况的一个指标时是高优指标;但在研究肥胖症儿童病情控制时,则为低优指标。还有一些指标为均优(不分高优与低优)。指标编秩的基本方法如下:
(1)高优指标从小到大编秩,即以指标最小值编以秩次1,指标次小值编以秩次2,……,指标最大值编以秩次 n;低优指标则相反,从大到小编秩。同一指标数值相同者编以平均秩。
(2)均优的指标各评价对象统一编以平均秩。
(3)运用高优、低优与均优的指标的各种组合可表达秩次的细微差别。此时,秩次赋予的标准为:偏高(低)优=1/2(高(低)优+均优),稍高(低)优=1/2(偏高(低)优+均优)。通常,最多编秩不超过7个层次(低优、偏低优、稍低优、均优、稍高优、偏高优及高优)
例4-1
1990年国内9省(区)农村医疗机构服务范围的比较(表4-3)。
表4-3 1990年国内9省(区)农村医疗机构服务范围构成
资料来源:田凤调.秩和比法及其应用.北京:中国统计出版社,1992
本例在编秩时7个分组选用了7个层次。分析表明,1990年国内此9省(区)农村医疗机构服务范围的水平相差不大,都偏低。如以百分计,在40~70分,最低为内蒙古39.68分,最高为广东67.46分。
(4)如果某指标存在标准值 X s,即当指标值 X i取 X s时最优,超过或不及 X s,距离越远越差,则当 X i< X S,用换算值 编秩;当 X i≥ X S,用换算值 编秩。
例4-2
广东湛江医学院附属医院1980—1988年住院工作质量与效率的综合评价(表4-4)。
表4-4 湛江医学院附属医院1980—1988年住院工作指标
资料来源:田凤调.秩和比法及其应用.北京:中国统计出版社,1992
本例中病床使用率和病床年周转次数通常为高优指标,但考虑到过高仍属不正常现象,值得管理者注意,因此,在计算 RSR值时,标准值 X S的引入,体现了辩证的观点。
(5)如果某指标为低优指标,且存在某临界值 X s,达到及超过 X s的指标值均编以最小秩次;如果某指标为高优指标,且存在某临界值 X s,达到及小于 X s的指标值亦均编以最小秩次。
例4-3
10批酱油样品卫生监测及其评价(表4-5)。
表4-5 10批酱油样品卫生监测指标
资料来源:田凤调.秩和比法的应用.北京:人民卫生出版社,2002
分析表明,10批酱油由优至劣的排序为样品10、样品8、样品9、样品4、样品6、样品3、样品7、样品2、样品5、样品1。