循证实践活动:了解统计学术语及应用相关信息的方法
循证实践活动(Evidence-based practice,简写为EBP)被定义为“谨慎而明智地使用最正确的现有证据来制定护理患者的决策”(Sackett et al.,1996)。循证实践活动的核心概念是将证据整合进对患者的诊断和管理中。不能简单地判断用于诊断的测试的好坏。某个测试或许能在特定条件下提供关于特定受试者的重要信息。
理解如何进行循证实践活动,需要了解相关术语。这节我们讨论了许多主要的术语,及其与本书的功能性运动表现测试的关系。
参考标准是定义最有益条件的标准(Jaeschke et al.,1997)。参考标准应具有一定的效度和成为标准的正当性(Task Force on Standards for Measurement in Physical Therapy,1991)。
信度指的是使用某种仪器或测试方法多次测量某种特质时测量结果的一致程度(Domholdt,2000)。随机误差(偶然误差)会影响测量结果。确定测试的信度,需要确定真实结果的比例和误差的比例(Rothstein & Echternach,1999)。
信度有两种主要形式:测试者内信度和测试者间信度。测试者内信度指测试者使用一种测试方法进行多次测试得到结果的一致程度。而测试者间信度指不同测试者使用多种测试方法进行测试得到结果的一致程度。大量功能性运动表现测试已经被证明是非常可靠的。对于本书后续章节所讨论的功能性运动表现测试,如果有信度信息的话会提供。
卡帕统计量是调整后的机会一致系数,克服了与标定数据和有序数据一起使用时的机会一致性难题(Laslett & Williams,1994)。理论上,如果一致性达不到预期值,那么卡帕统计量可能为负值。在临床信度研究中,卡帕统计量通常为0~1.00(Portney & Watkins,1993)。卡帕统计量不区分不一致性;它假定所有的不一致性都具有相同的重要性(Portney & Watkins,1993)。或许卡帕统计量最大的局限性是其对精确一致性的分析:它将一致性看作全有或全无的现象,而不存在“接近”一致性的现象(Portney & Watkins,1993)。
相关系数用来确定两个变量的相关程度。相关系数对于样本大小非常敏感,即使在较小的样本里统计的功效也可能很高。相关系数的解释应与获得的样本大小相联系。随着样本数量的充分增加,即使是几乎没有什么意义的样本,都将在统计学上显著相关(Portney & Watkins,1993)。
皮尔逊(Pearson)积矩相关系数(r)可以对两个变量之间的相互关系及相关方向进行定量描述。相关系数在作为一致性系数使用时具有局限性,这是因为它们只能用于评估两位测试者或两种测试方法(Portney & Watkins,1993),并且它们测量的是协方差,无法反映一致性(Huijbregts,2002)。
组内相关系数(Intraclass correlation coefficient,简写为ICC)是一个信度系数,它的方差估算是通过方差分析(ANOVA)得到的(Huijbregts,2002)。组内相关系数优于相关系数,这是因为每位测试者或每种测试方法对应的样本无须相同,并且其可以用于评估数量等于或大于2的测试者或测试方法(Huijbregts,2002)。因为组内相关系数基于所有测试者(测试方法)方差的平均数,所以所有测试者(测试方法)、数位(种)测试者(测试方法)或一位(种)测试者(测试方法)都可能具有不一致性。组内相关系数可以被认为是测试者(测试方法)的平均校正值,因此,它不代表任何单一测试者(测试方法)的信度(Ebel,1951;Portney & Watkins,1993)。表1.1是对不同信度值的描述。
表1.1 不同信度值的描述
幸运的是,文献中的许多研究都对功能性运动表现测试和其他常用测试的参数进行了对比。研究者们主要是为了确定功能性运动表现测试中的变量或得分,是否可以基于另一个测试的变量或得分来预测。例如,许多研究者认为跳跃测试和等速力量测试相关;也就是说,他们认为单腿站立测试时间和力量测试(如峰值力矩或爆发力的等速测试)具有相关性。其相关性可高可低。接下来的章节我们列举了文献报告的相关性。确定使用哪种功能性运动表现测试的过程,应包括确定哪种测试与人们希望测试的功能或身体素质的相关性最高。
后续章节讨论和回顾了功能性运动表现测试的相关性,测试者应牢记较高数值(接近1.0)表示高度相关,而较低数值(接近0)则表示低度相关。虽然研究人员还未对一些功能性运动表现测试进行过相关研究,但这并不意味着这些测试不好,记住这一点非常重要。研究不足可能仅仅是因为没有足够多的时间去进行这么多的测试。虽然这个领域已经有了大量的研究,但是还有很大的研究空间。
效度指的是一个研究或测试达到其目的的程度(Domholdt,2000)。测试的信度是效度的前提,但效度不能证明其信度。在本书的功能性运动表现测试中,有效的测试是能衡量对指定的运动、职业或日常活动至关重要的能力的测试。
测试效度指一个工具可以达到测量目的的程度(Portney & Watkins,2000)。至于功能性运动表现测试,我们必须考虑到指定的功能性运动表现测试是否能够区别具备和不具备某个特质的个体。如果我们测试的一个受试者的膝关节韧带不稳定,而另一个受试者的膝关节韧带没有出现不稳定的情况,我们是否确定单腿平衡测试(单腿站立测试)能够区别这两个受试者?对于大多数功能性运动表现测试,关于效度的研究有限。
后续章节介绍的大多数功能性运动表现测试已被证明具有一定的表面效度,它指的是一个工具使用可信的方式来对它应测试的内容进行测试(Portney & Watkins,2000)。在受试者垂直双腿跳测试的时候,我们测量了他尽力跳到最高点时与地面的距离。这个结果需要在受试者跳跃的时候才能获得。这是最不严格的测量效度的形成(Portney & Watkins,2000)。在进行只具有表面效度的测试时会出现很多问题,如一些经常会发生的情况:受试者没有完全理解指导说明,或者在测试的时候没有尽全力。
我们接下来要讨论的术语非常重要,尤其是在健康相关领域,这也和功能性运动表现测试有关。敏感性指的是一个测试能够检测到人们在某些方面确有缺陷的能力(正如在参考标准中提到的那样)。一些功能性运动表现测试能够被用来检测系统的异常或功能紊乱,例如,下肢不对称或梨状肌功能紊乱。敏感性也被称为真阳性率(Sackett et al.,2000)。由于高敏感性测试的假阴性结果相对较少,因此凸显了阴性结果的价值(Sackett,1992)。“SnNout”是“高敏感性、阴性结果和排除诊断”的助记词(Sackett et al.,1992)。如果一个测试的敏感性高,那么阴性结果对于排除诊断来说则是有用的。高敏感性未强调阳性结果的价值(Fritz & Wainner,2001)。
特异性指的是一个测试能够正确识别不具有缺陷或症状的个体的能力(正如在参考标准中提到的那样)。换言之,特异性指的是在阴性结果中无缺陷的受试者比例。“SpPin”是“高特异性、阳性结果和确定诊断”的助记词(Sackett et al.,1992)。如果一个测试的特异性高,那么阳性结果对于确定诊断来说则是有用的。由于高度特异性测试有相对较少的假阳性结果,因此它凸显了阳性结果的价值(Sackett,1992)。高特异性未强调阴性结果的价值。
遗憾的是,很少有测试同时拥有高敏感性和高特异性。了解测试的敏感性和特异性,可以帮助测试者通过衡量阳性和阴性结果的相对价值,制定决策(Fritz & Wainner,2001)。选择最合适的测试是EBP决策模式的一个新主题。
似然比(Likelihood ratios,简写为LR)可能是阳性的,也可能是阴性的。阳性似然比表示真阳性结果与假阳性结果之比;而阴性似然比则表示真阴性结果与假阴性结果之比(Fritz & Wainner,2001)。阳性似然比大的测试通常有高特异性,这是因为这两个值都指向阳性结果的价值(Fritz & Wainner,2001)。阴性似然比小则对应高敏感性(Fritz & Wainner,2001)。有关似然比的详细说明,见表1.2。
表1.2 似然比说明
阳性和阴性预测值及其准确性,已经运用于循证医学领域,其目的是确定文献中的测试的有效性。该预测值让测试者能够判断测试结果是阳性或是阴性的概率。
- 阳性预测值(Positive predictive value,简写为PPV):给定阳性测试结果,一个人有特殊情况的概率。
- 阴性预测值(Negative predictive value,简写为NPV):给定阴性测试结果,一个人没有特殊情况的概率。
总准确度指的是诊断正确的人数比例。要增加测试准确度需要仔细规划和考虑细节。以下是测试者提高准确度的方式。
- 通过帮助受试者理解测试程序来做好测试准备。
- 在进行测试之前允许受试者进行标准化练习(尤其是测试的任何特殊方面)。
- 确保受试者遵守测试前的指导。
- 确保切实遵守相关测试流程。
- 确保测试者具有特定测试实施经验。
- 在测试过程中使用一致且标准的设备。
- 使测试者的动机保持一致,以进行测试者间对比及受试者间对比。
如果不使用多个测试,则尽量使用不止一个测试,这可以提高准确性。现在趋向于使用测试组合来更准确地预测阳性或阴性结果。临床预测规则是测试者基于已被证明具有预测效度的多个变量确定受试者是否具有某种缺陷的工具(McGinn et al.,2000)。多个测试总是作为一个测试组合,而不是单个测试或孤立的多个测试来使用。测试组合让一个人基于测试结果预测阳性或阴性结果的正确率大大增加。