上QQ阅读APP看书,第一时间看更新
第二节 筛查试验的评价
筛查试验评价就是将待评筛查试验与诊断目标疾病的标准方法,即“金标准”(gold standard),进行同步盲法比较,判定该方法对疾病“诊断”的真实性和价值。
一、筛查试验评价具体过程
筛查试验评价的指导思想为对比的思想。步骤为先确定适宜的“金标准”,接着用它筛选适量的目标疾病患者(病例组)和非患者(对照组),然后用待评价筛查试验再对他们检测一次,最后将所获结果与金标准诊断结果进行比较,并用一系列指标来评价筛查试验对某病的诊断价值。为了减少偏倚,整个过程应遵循盲法原则。
(一)确定“金标准”
“金标准”:指当前临床医学界公认的诊断疾病的最可靠方法。使用金标准的目的是准确区分受试对象是否未某病的患者。通常用活体病理组织检查、手术探查、尸体解剖以及特殊影像诊断,或公认的临床诊断标准等作为金标准。
不同的疾病有不同的金标准,如诊断冠心病的金标准是冠状动脉造影,诊断肿瘤的金标准是病理学检查,诊断胆结石的金标准是外科手术所见。
要对诊断或筛检试验作出正确评价,金标准的选择至关重要。对有些诊断困难的疾病,可能暂时没有真正意义上的金标准,此时只能选择一个相对公认的方法作为金标准。对用这种相对标准诊断的病例,可采用长期随访病例,以获得肯定结果的办法进行复核。为了避免外界环境因素的干扰,要求待评价的诊断或筛检试验与标准方法应在同一时间在相同条件下进行试验。
(二)选择受试对象
总原则:研究对象能够代表该方法可能应用的目标人群。
其中,病例组应包括所研究疾病的临床各型、各期及有无并发症的病例,以使病例组对该病的患者总体具有代表性。病例代表性的好坏,将直接影响对筛检或诊断试验的评价结果的普遍性和推广价值。
非病例组:应选择确实无该病的其他病例,不仅包括健康人,还应包括一些确实未患该病但患有其他疾病的病例。尤其应包括易与该病混淆的病例,这主要是考察该方法的鉴别能力。应在年龄、性别及某些重要的生理状态等方面与病例具有可比性。
(三)样本量的估计
样本含量的大小同样关系到研究对象的代表性问题,在进行筛检试验评价时必须加以考虑。
影响样本大小的因素:①待评价筛查试验的灵敏度;②待评价筛查试验的特异度;③显著性检验水平α;④容许误差δ。
当灵敏度和特异度均接近50%时,可用下面的近似公式:
式中:n为所需样本量;u α为正态分布中累积概率等于α/2时的u值,如u0.05=1.96或u0.01=2.58;σ为容许误差,一般定在0.05~0.10;p为待评价筛查方法的灵敏度或特异度。用灵敏度估计病例组所需样本量,特异度估计对照组所需样本量。
当待评价筛查试验的灵敏度或特异度小于20%或大于80%,样本率的分布呈偏态,需要对率进行平方根反正旋转换,并用下面的公式计算样本量:
例题:某项疾病筛查实验方法评价的研究,据查阅文献该方法的灵敏度为50%,特异度为90%,规定α=0.05,δ=0.05,估计病例组和非病例组的样本含量。
据已知条件,用以下公式计算:
病例组样本量:n=(1.96/0.05) 2×(1-50%)×0.50=384.16
非病例组样本量:n=(1.96/0.05) 2×(1-90%)×0.90=138.30
即在此项研究中需病例组384名,非病例组138名。
筛检的样本含量的估计也可以通过查阅表4-2获得,在d=0.050,p=0.50相交处,得n=384;在δ=0.050,p=0.90相交处,得n=138,与公式计算所得两组样本量结果一致。
表4-2 对率作抽样调查时所需样本大小n(α=0.05)
(四)整理评价结果
对确定的每个受试对象,用金标准和被评价的诊断实验同时进行测试(表4-3)。
表4-3 筛查试验评价资料整理表
注:A:真阳性,确实有病又被判断为阳性的人数
B:假阳性,确实无病而被判断为阳性的人数
C:假阴性,确实有病而被判断为阴性的人数
D:真阴性,确实无病又被判断为阴性的人数
临床上研究诊断试验,都是在样本中进行研究,所以在推论总体时应考虑样本例数的影响,因此在诊断试验评价研究时进行数据统计学分析,还需要计算灵敏度和特异度的95%可信区间。
P为灵敏度时,n=a+c
P为特异度时,n=b+d
条件是np和n(1-p)都≥5
二、筛查试验的评价指标
对诊断试验和筛检试验的评价,除考虑安全、可靠、简单快速及方便价廉外,主要从试验的真实性、可靠性及效益三个方面进行评价。
(一)真实性
真实性(validity)是指试验结果和真实情况之间的符合程度,又称准确性(accuracy),是指将病人和正常人正确区分开的能力。
在筛检试验的评价中,真实性是指待评价筛检试验的测量结果与“金标准”测量结果的吻合程度。在实施一项筛检或诊断试验时,受检人群将出现如表4-3所示的真阳性、假阳性、真阴性、假阴性四种情况,据此可计算出一系列评价真实性的指标:
1.灵敏度与假阴性率
灵敏度(sensitivity),又称真阳性率(true positive rate),即实际有病而按该筛查试验的标准被正确地判为有病的百分比。它反映筛查试验发现病人的能力。
灵敏度SN=A/(A+C)×100%
假阴性率(false negative rate),又称漏诊率或第Ⅱ类错误。指实际有病,根据筛查试验被确定为无病的百分比。它反映的是筛查试验漏诊病人的情况。
假阴性率=C/(A+C)×100%
灵敏度+假阴性率=1
2.特异度与假阳性率
特异度(specificity),又称真阴性率(true negative rate),即实际无病按该诊断标准被正确地判为无病的百分比。它反映筛查试验确定非病人的能力。
特异度SP=D/(B+D)×100%
假阳性率(false positive rate),又称误诊率或第Ⅰ类错误。即实际无病,但根据筛查被判为有病的百分比。
假阳性率=B/(B+D)×100%
特异度+假阳性率=1
3.正确指数
也称约登指数(Youden’s index)是灵敏度与特异度之和减去1。指数范围在0~1之间。表示筛查方法发现真正病人与非病人的总能力。指数越大,其真实性越高。
约登指数=灵敏度+特异度-1=1-(假阴性+假阳性)
⒋似然比(likelihood ratio,LR)
属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛查试验结果的概率与无病者得出这一概率的比值。
阳性似然比(positive likelihood ratio,+LR)
阴性似然比(negative likelihood ratio,-LR)
该指标的特点是全面反映筛查试验的诊断价值,非常稳定。它的计算只涉及灵敏度与特异度,不受患病率的影响。阳性似然比越大,筛查试验的诊断价值越高;阴性似然比越小,筛查试验的诊断价值也越高。
(二)可靠性(reliability)
又称信度、一致性或重复性,是指在相同条件下重复试验获得相同结果的稳定程度。具体地讲,可靠性是指某一筛检方法重复测量同一受试者时所获结果的一致性。
具体评价的方法是在相同的条件下,用待评价的筛检试验对同一组研究对象作两次相同的测量,根据两次测量结果计算相应指标,进行分析评价。
1.变异系数(coefficient of variation,CV)
如果试验测量的是剂量指标,则可用变异系数来表示可靠性。变异系数越小,可靠性越好。
变异系数=(测量值标准差/测量值均数)×100%
2.一致率(agreement/consistency rate)
又称符合率,是筛查试验判定的结果与标准诊断的结果相同的数占总受检人数的比例。
3.Kappa分析
近年人们常用Kappa分析评价两种检验方法和同一方法两次检测结果的一致性。该分析考虑了机遇因素对一致性的影响。Kappa值的取值范围介于-1和+1之间。K<0,说明由机遇所致一致率大于观察一致性;K=0,表示观察一致率完全由机遇所致;K>0,说明观察一致性大于因机遇所致一致的程度。
4.影响筛检试验可靠性的因素
(1)研究对象的生物学差异:同一指标对同一受试者重复测量时,测量结果不一致的现象。
(2)实验因素所致的差异:实验所用的仪器、设备、试剂实验条件不稳定或等采用非同一批次试剂时,均可导致重复实验结果的差异。
(3)观察者的差异:由同一观察者或不同观察者对相同受试者的同一指标测量时,其结果会不一致。
(4)筛检开始前应充分估计影响可靠性的因素,如:仪器设备统一校准、同批次试剂、测量及检查步骤标准化、工作人员严格培训及适宜的检查场所的选择等,将可能的影响控制在最低限度。
(三)预测值
1.阳性预测值(positive predictive value)
是指筛查试验阳性者患目标疾病的可能性。
阳性预测值=A/(A+B)×100%
2.阴性预测值(negative predictive value)
是指筛查试验阴性者不患目标疾病的可能性。
阴性预测值=D/(C+D)×100%
3.患病率对预测值的影响
要比灵敏度和特异度对预测值的影响明显得多。筛查试验的灵敏度越高,阴性预测值越高;筛查试验的特异度越高,阳性预测值越高。
4.预测值与灵敏度和特异度的关系
预测值不仅与患病率有关,而且与灵敏度和特异度有关。灵敏度和特异度对阳性预测值的影响较阴性预测值明显。阳性预测值与特异度同向变化,阴性预测值与灵敏度同向变化。患病率不变的情况下,随着灵敏度的升高,假阴性率越低,阴性预测值升高;随着特异度的升高,假阳性率越低,阳性预测值升高。
三、筛查试验阳性结果截断值的确定
如何确定筛查试验阳性结果的截断值(cut off point)或临界点,与筛查试验测得病人与非病人的观察值的分布有关。一个合理的截断值就是要使试验的真实性最好,理想的判断标准就是要使试验的灵敏度和特异度都达到100%。只有当正常者与异常者的测定值完全没有重叠时,才能得到这种理想的结果。此时,判断标准很容易确定。然而,通常的情况是正常者与异常者的测定值总有部分重叠,如图4-4所示正常人和糖尿病患者血糖分布。
图4-4 正常人和糖尿病患者血糖分布
A. 理想的正常人群与糖尿病病人血糖水平分布
B. 现实的正常人群与糖尿病病人血糖水平分布
(一)确定判定截断值的原则
1.当假阳性与假阴性同等重要时,可选择灵敏度与特异度相等,或使正确指数最大的分界值作为判断标准(如E处)。
2.进一步确诊试验的繁简程度,如果确诊试验较繁,费用高,则以提高特异度为主,判断标准右移;否则可考虑以提高灵敏度为主,判断标准左移。
3.漏掉一个可能病例的后果,如果该病早期诊断和早期治疗可获得很好的治疗效果,否则后果严重,此时应选择灵敏度高的判定标准,尽可能把所有的可疑病人都诊断出来。
4.一定间隔期后再次检查的可能性,若试验对象在一定间隔期后有机会做第二次检查,则本次漏诊不会造成严重后果,此时应考虑以提高特异度为主,判断标准向右移;否则判断标准向左移。
5.如果预后不好,又无治疗办法或引起心理负担,如肿瘤、艾滋病等,此时应选择特异度高的判断标准,向右侧移动,尽量减少误诊率。
6.该病的患病率,如果某病的患病率低、正常人占绝大多数,此时如果特异度稍有下降,将出现大量的假阳性(误诊)。因此,应以提高特异度为主,判断标准右移。
7.判断标准左移时,灵敏度增加,特异度下降,假阳性增加,将使诊断成本增加。相反,当判断标准右移时,特异度增加,灵敏度下降,假阴性增加,将使漏诊率增加。
(二)确定判断标准的方法
1.均数加减标准差法
以均数±2倍标准差作为正常值范围。优点为计算简单、应用方便。适用于生物学测量呈正态分布的资料。
2.百分位数法
适用于任何分布类型的资料。
3.根据实际情况人为判定标准
以正常人群和病例测量值的分布资料为基础,平衡误诊、漏诊的比例和利弊,最后由专家讨论制定,比较符合临床实际。
4.受试者工作曲线(receiver operator characteristiccurve,ROC曲线)
设计以试验的灵敏度(真阳性率)为纵坐标,1-特异度(假阳性率)为横坐标,以曲线的形式反映灵敏度和特异度的相互关系,从而能为正常值的确定迅速提供直观的印象,这种曲线被称为受试者工作曲线,如图4-5。通常将最接近ROC曲线左上角那一点定为最佳临界点。该临界点上特异性和灵敏度相对最优。ROC曲线是评价筛检试验的一种全面、准确、有效的方法,并可用于比较两种或多种筛检试验的诊断价值。曲线下面积反映了诊断试验价值的大小,面积越大,越接近于1.0,诊断的真实度越高,越接近0.5,诊断的真实度越低,当等于0.5时,则无诊断价值。
图4-5 受试者工作曲线
四、筛查效果的评价
(一)收益
筛检试验是否切实可行,必须事先考虑其应用效益,特别是筛检试验更应注重效益。收益(yield)也称收获量,指经筛查后能使多少原来未发现的病人得到诊断和治疗。
如何提高诊断试验或筛检试验的效率,更好地为临床诊疗服务是临床医师们十分关心的问题。提高试验的效率,除了改善试验本身以提高其真实性外,下列一些措施亦可显著提高试验的效率。
1.优化试验方法
选择正确的、合适的、客观的试验指标,确定一个合适的判断标准,可有效地提高试验的真实性,因而可提高试验的效率。另外,使试验的方法与步骤标准化,可减少假阴性和假阳性的发生率,因而也是提高试验效率的重要因素。
2.选择患病率高的人群
当试验方法确定之后,试验的灵敏度和特异度就已经固定。此时,选择患病率高的人群进行试验,是提高效率的有效手段。
选择患病率高的人群,一方面可使新发现的病例数量增加。另一方面可使阳性预测值升高,试验成本下降,其结果使试验的效率提高。临床上实行的逐级转诊制度,建立专科门诊及专科医院等,其结果都提高了就诊群体的疾病阳性率,因而提高了试验效率。
3.联合试验
联合试验是指采用多个筛检试验检测一种疾病,达到提高筛检试验灵敏度或特异度的目的,以满足提高筛检试验真实性的需要。
(1)串联试验(serial test):
也称系列试验,是指采用几种筛检方法检测疾病,只有全部检测均为阳性者才判为阳性,凡有一项检测结果为阴性即判为阴性。
(2)并联试验(parallel test):
也称平行试验,是指采用几种筛检方法检测疾病,凡有一项检测为阳性者即判为阳性,所有检测均为阴性才判为阴性。
如果两个筛检试验彼此完全独立,则可以采用下列公式计算联合试验的灵敏度和特异度。
并联试验的灵敏度=A灵敏度+(1-A灵敏度)×B灵敏度
并联试验的特异度=A特异度×B特异度
串联试验的灵敏度=A灵敏度×B灵敏度
串联试验的特异度=A特异度+(1-A特异度)×B特异度
在联合试验时,应先进行特异度高的试验,后用灵敏度高的试验,这样筛检的效率更高。
(二)效益
包括社会效益和经济效益:筛检的社会效益是指筛检给社会、人群的精神和健康所带来的益处。经济效益是指从卫生经济学的角度讲,一项好的筛检计划应符合效率高和经济廉价的原则。
效益的评价方法:成本-效果分析(costeffectiveness analysis)即实施筛检计划投入的费用及其获得的生物学效果的分析,常用指标如病死率、死亡率、生存率等;成本-效益分析(cost-benefit analysis)即实施筛检计划所投入的费用及所获经济效益的分析;成本-效用分析(cost-utility analysis)即筛检所投入的成本与取得的生命质量的改善情况之间的分析评价方法。
(三)筛查中的偏倚
1.领先时间(lead time)与领先时间偏倚(lead time bias)
领先时间是指通过筛查试验,在慢性病自然史的早期阶段,如症状出现前,提前作出诊断,从而赢得提前治疗疾病的时间。实际上就是从筛查发现到临床诊断发现所能赢得的时间。
领先时间偏倚是指筛查诊断时间和临床诊断时间之差被解释为因筛查延长的生存时间。这种表面上延长的生存时间,实际是筛查导致诊断时间提前所致的偏倚(图4-6)。
图4-6 领先时间偏倚示意图
2.病程长短偏倚(length bias)
一些恶性程度低的癌症病人常有较长的临床前期,而恶性程度高的同类癌症病人的临床前期较短,因此前者被筛查到的机会较后者大,而前者的生存期又比后者长,从而产生一种筛查者要比未筛查者生存时间长的假象(图4-7)。
图4-7 病情长短偏倚示意图
3.病人自我选择偏倚(volunteer bias)
同所有使用志愿研究一样,筛查参加者与不参加者之间,某些与生活有关的特征可能存在不同。如参加筛查者可能因文化水平、卫生保健知识水平较高,平时比较注重健康问题,对吸烟、饮酒等不良生活习惯较为注意,对身体出现的异常症状也较为警惕,有较好的医疗依从性,这些都会对今后的存活率产生影响,而引起偏倚。
4.错分偏倚(misclassification bias)
信息偏倚,金标准确定不当造成病人、非病人的错分,仪器、设备、试剂所致误差等。
(封志纯)