综合评价方法及其医学应用
上QQ阅读APP看书,第一时间看更新

第一章 综合评价概论

第一节 综合评价的基本概念

一、基本概念
随着决策科学的发展,评价科学也在不断发展。所谓评价(evaluation),是通过对照某些标准来判断观测结果,并赋予这种结果以一定的意义和价值的过程。一般而言,观测结果仅能反映现状,只有通过评价之后,才能对现状的意义加以判断。例如,身高140cm,体重35kg,仅就这两数字而言,并没有什么实际意义,而当与某一年龄的生长发育标准进行对比时,就能看出其意义与价值了。
单一因素的评价易于实现,只要按一定的准则分别依据该因素给研究对象一个评价等级或分数,依等级或分数高低,便可排出优劣顺序;但是在医疗卫生实际工作中,对于复杂的状况,因同时受到多种因素的影响,必须综合考查多个有关因素,依据多个有关指标对评价对象进行评价,并排出优劣顺序,这就是所谓综合评价(synthetical evaluation)。
有人曾指出,综合评价是对一个复杂系统的多个指标进行总评价的特殊方法。例如某个儿童的营养状况评价,就是综合分析所摄入的食物种类、数量、配比、吸收、疾病情况,以及身体发育、形态、功能、智力、遗传等有关因素后,而得到的总的印象或总体的评价。当然综合评价不同于多个指标分析的简单相加,而是在掌握有关历史资料的基础上,将各种有关因素的信息集中,依据其内在联系进行适当加工提炼,并密切结合医疗卫生工作实践,用数理统计方法或生物数学方法制订出恰当的评价模型,以谋求对评价对象的类别及其优劣等级进行较为客观的判断,为医疗卫生工作决策提供依据。作为当代的医疗卫生工作者,在总结经验、考核效果和进行科学研究的过程中,经常会遇到综合评价问题。本章将结合实际,着重介绍综合评价的基本思想、基本步骤和一些常用方法。
医疗卫生工作的理论和实践是一个广泛的领域,因而有关的综合评价必然涉及各个方面,有着十分丰富的内容。
根据评价手段,可分为定量评价(quantitative evaluation)与定性评价(qualitative evaluation)。定量评价较为客观、全面,易为人们所接受。
根据评价的领域,可分为临床评价(clinical evaluation)、卫生评价(health evaluation)和管理评价(administrative evaluation)等。
临床评价包括诊断性试验和方法评价,用以评估某种诊断手段的应用价值,通常结合考查其敏感性、特异性与准确性进行综合评定,例如心电图运动试验对诊断冠状动脉狭窄的应用价值评定;包括疗效评价,用以评估各种临床治疗药物或疗法对某种或某类疾病的治疗效果,往往根据选定的多个疗效指标,对其有效性及安全性进行综合评定,例如内科疗法与外科疗法对颈总动脉病变所致一过性脑缺血的疗效评价;包括预后及转归评价,用以评估某些临床措施或病程中呈现的某些征象对疾病预后和转归的影响等。
卫生评价包括环境评价,用以对生活环境或生产环境的优劣进行评估,例如大气质量、水质、土质污染程度的评价;包括营养评价,用以评估群体或个体营养状况以及某些食品的营养价值等,例如,婴幼儿营养状况的评价;包括生长发育评价,用以对不同发育阶段的儿童及青少年体格发育与行为智力发育状况进行评价;还包括疾病防治效果评价、生活质量评价等。
管理评价包括宏观管理评价与微观管理评价,前者又包括卫生状况评价与卫生实力评价,以及卫生政策评价与卫生经济评价等,两者往往结合在一起,对医疗卫生政策、医疗卫生措施、医疗卫生单位管理水平、教育教学质量、科研成果、科研方案等的优劣取舍进行综合评定。
按评价方式分,可分为预评价(pre-event evaluation)、中期评价(interim evaluation)和终结评价(after-event evaluation)。
预评价,是在制订某项医疗措施计划时进行评价,这时还未开展大量的试验研究工作,还缺乏来源于实践的数据,主要是参考有关资料,汇集各方面意见,通盘考虑方案中的各种问题,制订切实可行的方案,这种评价具有预测性质,属探索性评价。
中期评价,是在大量进行试验研究工作之后进行的,着重验证设计或方案的正确性与可行性,研究暴露出来的问题,并采取必要的措施或对策,以决定在原计划或方案中应保留的部分、应改进的部分及应摒弃的部分。
终结评价,是在试验研究工作全部完成以后进行的,属于推广应用前的评价,着重全面审查研究成果,并与同类成果或技术在科学性、先进性、实用性、经济性等各方面进行综合比较,以决定优劣取舍。
对某一具体事件的评价,既涉及前一种分类的内容,又涉及后一种分类的内容;既包括对整个系统的评价,也包含对可靠性、可行性方面的评价;而且对于同一事件,依不同对象不同目的往往有不同的评价标准,这就使得评价工作复杂化和多样化。
二、进行综合评价的基本条件
(一)首先要有一个高质量的内容丰富的信息源
所谓信息,是关于主体和客体之间有关情况的消息,是一种提供确定因素,消除不确定因素的消息。缺乏这种消息,便无法认识事物间的相互联系,也无法探求事物的规律。这些消息,有反映现状的,有反映历史的,有定量的,也有定性的……。从某种意义上讲,综合评价就是信息管理的全过程,即信息的收集、处理和分析的过程,只有在充分占有有关评价对象及其相关因素的信息的基础上,才有可能作出较为可靠的评价。信息越多,越真实,评价的准确性与可靠性越高。
1.信息的收集
又称数据的收集,是一项至关重要的基础工作,有的数据来自第一手材料,有的来自第二手材料。
第一手材料,包括以各种形式直接收集到的数据,主要来源于三个方面:各种统计报表,各种医疗卫生工作记录和报告卡,以及专题调查或实验(包括各种形式的抽样调查、普查和典型调查),获取第一手资料往往需时较长,费用较高,但较为可靠。
第二手材料,多为已经公布或发表的有关资料,易于获取,代价较低,同时数据精度也易于保证。其缺点是可能不宜直接应用。因而有些作者主张在应用这些数据时,可进行恰当的修正或处理。
收集的数据,应符合以下要求:
(1)完整:
内容全面,无遗漏;范围齐全;时间连续。
(2)准确:
这是最重要也是最基本的要求。资料应准确反映实际情况,各项目之间无矛盾,各数字无不合理现象。
(3)及时:
有明确的时间限制,从某种意义上说,信息的价值取决于提供信息的时间。
(4)适用:
信息能反映本质问题,包括那些实际上能产生潜在影响的信息,有利于提高工作效率。
(5)经济:
要以最低的费用获取最多的信息。
2.信息的处理
信息的可靠性直接影响到评价的客观性,由于多方面的原因,我们收集到的资料的可靠程度不可避免地会受到某些干扰。同时,考虑到资料使用的方便,还有必要对数据进行处理。
信息处理,即用各种技术手段对原始资料进行审核、汇总和存贮,使之条理化、系统化的过程。包含清除那些不合理的可疑值(离群值,outlier),从而改善资料质量的过程;包含缺失数据(missing data)数量与性质的评价,并按照一定原则进行缺失值估计,从而保证资料完整性的过程;包含定性资料或等级资料与定量资料间的相互转换,尤其是定性或等级资料定量化,从而适于进一步分析的过程;也包含由已知信息来推算有关的未知信息,从而获得新的信息的过程。
(1)对原始数据进行审核、汇总和贮存:
审核的目的在于检查资料的完整性、准确性与有效性,从而确定信息源的可靠性。对于原始记录中的遗漏或重复,对各项目之间存在的矛盾与不合理现象,应立即补充,剔除,改正;在此基础上,根据研究设计中整理分析计划的要求进行合理的分组汇总,并以适当的方式,例如以数据软件的形式贮存。
(2)可疑值的清除:
在一组观测值中有时出现少数过大或过小的极端值,使人怀疑是否发生了错误,这种数值称为可疑值(或离群值),往往由过失误差造成。对可疑值应反复检查,寻找发生原因,以便加以纠正;若找不出任何原因,不能随意舍去,可增加观测次数,或用专门的统计方法决定其取舍。
通常情形下,对单变量计量资料离群值的查找,可使用标准分法或图示法。若据某观测值计算的标准分Z≥3.29,该值可以称为离群值;直方图、箱式图、P-P图和Q-Q图等也可发现那些潜在的离群值;对多变量离群值的查找,可计算马氏距离(Mahalanobis distance)、杠杆值(leverage value)与影响值(influence value)等,读者可以参考有关专著。对服从正态分布的单变量计量资料可以考虑下述三种较为简易的方法剔除离群值,即Chauvenet法、Smirnov法和Grubbs法。它们的计算方法相同,仅界值不同,计算步骤如下:
1)计算观察值(包括可疑值在内)的均数 与标准差 S,并按公式(1-1)计算 T值:
(1-1)
式中 X i为可疑值。
2)查 T α n界值表作出判断:表1-1中所列为不同的界值 T α n,其中 α为第一类错误的概率, n为样本含量。若 TT α nX i不能舍去,若 TT α n,则 X i可舍去。
表1-1 检验可疑值用 T α,n界值表
3)若有几个可疑值,则先判断离均差绝对值最大者,若可舍去,舍去该值后重新计算 S,按上法继续判断,直到不能舍去时为止。
例如,用分光光度计测得血中转氨酶标准管的光密度为0.16、0.16、0.17、0.17、0.19、0.30。问0.30可否舍去?
算得: S=0.05419
T α n界值表:Chauvenet法 T 1/2×6,6=1.73,Sminrov法 T 0.056=1.1996,Grubbs法 T 0.05,6=1.82。今 TT α n,故按任一方法的界值,0.30均可舍去。
(3)缺失数据处理:
数据缺失是资料分析中常见的问题之一,可由各种原因引起,如动物死亡、调查对象失访等。危害取决于缺失的类型、缺失值的数量以及缺失原因等。
在完全随机或随机缺失的情形下,如果缺失值数量不大(例如不足全体数的5%),对缺失的数据可予删除或进行缺失值估计。常用的缺失值估计方法有经验法、均值替代法、回归法、期望最大法(EM法)等,读者可以参考有关专著。
(4)各种类型资料间的数量转换:
在进行综合评价时,必然涉及众多的评价指标,有些是定量的,有些是定性的或按等级分类的。为了满足某些评价方法对资料的要求,在某些情况下,需要把一种类型的指标转换成另一种类型的指标。
计量资料转换成分类资料的过程较容易实现,只要依据有关专业知识,合理地制订不同分类间的数量界限,并对各观察单位进行清点计数,便可将一组计量资料转变成按性质或等级分类的分类资料。例如,脉搏次数(次/分)本为定量指标,如果规定脉搏数少于60次/分为缓脉,60~100次/分为正常,多于100次/分为速脉,则该指标就转换成了有三个分类的分类资料,可按缓脉、正常、速脉三个分类来清点观察单位数。
计数资料与等级资料转换成计量资料的过程较为复杂。一方面,某些定性指标本身的定量尺度难把握;另一方面,对那些按顺序分类的资料,如何给各等级以恰当的定量,以便于这种定量能较为准确地反映各等级间的差别,也是一个值得探索的问题。医学现象本身是一个极其复杂的过程,目前很多医疗卫生评价指标都缺乏进行客观度量的有效手段,例如,头痛或腹痛程度,就只能凭患者的主诉与医生的判断加以度量。与医学有关的社会、政治、文化等诸方面指标的客观度量就更为困难了。因此,医学现象的数量化过程,是计量医学发展中的一个问题,也是评价科学发展中的一个问题,有待于探讨。当然,模糊数学的发生与发展为医学现象的数量化提供了一个重要的参考手段。本章只介绍目前常用的最简单的数量化方法。
对于按性质分类的计数资料,如果研究的属性限于两类,则一般用0和1将其转换成(0,1)变量;如果研究的属性多于两类,则一般转换成多个(0,1)变量,如血型,有O型、A型、B型、AB型四个分类,则可规定O型为 x 1=1,其他型为 x 1=0,A型为 x 2=1,其他型为 x 2=0,B型为 x 3=1,其他型为 x 3=0,AB型为 x 4=1,其他型为 x 4=0。但由于一个人的血型必然属于四型中的一型,故 x 1x 2x 3x 4四个(0,1)变量中只有三个独立,可任意去掉一个,如果去掉 x 4,用 x 1x 2x 3三个独立变量来量化血型这个指标,O型用 x 1=1, x 2=0, x 3=0表示;A型用 x 1=0, x 2=1, x 3=0表示;B型用 x 1=0, x 2=0, x 3=1表示;AB型用 x 1=0, x 2=0, x 3=0表示。一般说来,一个有 m种属性分类的定性指标,可转换成 m-1个(0,1)变量。
对于按等级分类的分类资料,常按照各等级由低到高的排列顺序转换成取值由小到大排列的一个变量 x,各等级间的数量差异应酌情而定,可取公差不等的等差级数,甚至可取等比级数。例如腹痛这个指标,如果分成不痛、轻度痛、中度痛和重度痛四个等级,则可规定不痛为 x=0,轻度痛为 x=1,中度痛为 x=2,重度痛为 x=3等。
(5)常用的信息推算法:
依据已掌握的信息及其与客观事物间的联系,我们可以间接推算出由于各种原因不能直接测定的所需信息。
1)平衡法:
利用平衡关系式推算某些短缺资料。例如,在“某年人口数=上年人口数+同年出生数-同年死亡数+同年迁入人口数-同年迁出人口数”的平衡关系式中,如果缺少迁出人口数,其他数据均为已知,则可由以上关系式推出:同年迁出人口数=上年人口数+同年出生数-同年死亡数+同年迁入人数-某年人口数。
2)几何增长速度法:
在已知历史数据按等比级数增长的条件下,可用此法推算两个历史数据之间所短缺的某些历史资料。设已知某事物的平均发展速度 其中 a n为资料中最后一年的某指标量, a 0为第一年的某指标量, n为年份差数,则可据此推算 a 0a n年间任意一个年份的某指标量,设为 a k,则 a k为:
a k= a 0(1+ xy
(1-2)
式中 y为推算年份与 a 0之差值。
3)因素推算法:
利用现象内部各构成因素之间的变化关系进行资料推算。例如,由某年龄组人口数=总人口数×该年龄组人口构成比,便可在已知某地总人口数及人口构成的历史资料的基础上,推算某地各年龄组人数。
(二)要提倡现成历史资料的综合利用
不少医疗卫生单位长期以来在利用各种现成的历史资料方面存在着调查研究多,资料分析少;登记材料与表格多,科学结论少;单指标分析多,多指标综合评价少等现象。这使得现有的信息得不到充分利用,因此,提倡对现有历史资料的综合利用,甚至着手实现信息的区域性合作与国际合作,充分利用现有的计算机软件,提倡专业工作者与卫生统计工作者进行广泛深入的协作,将使得通过各种途径而获取的各种信息发挥最大的作用,也将使得各种形式的综合评价模型更加稳定可靠。
三、综合评价的一般步骤
对某事件进行多因素综合评价的过程,实质上就是一个科学研究与决策的过程,原则上应当包括设计、收集资料、整理资料和分析资料几个基本阶段,在实施中应着重注意以下几个基本环节:
(1)根据评价目的选择恰当的评价指标(evaluation indicator),考查各指标间的内在联系,选择那些主要的能反映事物本质的评价指标,这些指标应当明确、具体、可行、可靠。
(2)根据评价目的,确定诸评价指标在对某事物评价中的相对重要性,或各指标的权重。
(3)合理确定各单个指标的评价等级(evaluation grade)及其界限。
(4)根据评价目的,数据特征,选择适当的综合评价方法,并根据已掌握的历史资料,建立综合评价模型(evaluation model),计算综合指标。
(5)确定综合指标的等级数量界限,在对同类事物综合评价的应用实践中,对选用的评价模型进行考查,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用。
例如,评估新生儿缺氧状况的Apgar评分方法,就是综合评价方法成功应用的例证之一。首先根据医学理论与临床经验,选择心率、呼吸等5个体征作为评价指标,并赋予相等的权重;然后依据理论与实践,确定各单指标三个评价等级的界限及0、1、2三个分值的评分标准,建立如表1-2所示的评价模型;最后确定以累加法累计某评估对象各指标评分,并确定正常、轻度缺氧、重度缺氧三个等级的数量界限。通过实践检验,该模型仍然是产科临床用以判断新生儿有无窒息及窒息程度的常用方法。
表1-2 新生儿Apgar评分标准
以累加法累计总分:8~10分为正常;4~7分为轻度缺氧;0~3分为重度缺氧
四、综合评价的常用方法
广义来说,目前常用的多种医学统计学方法及其衍生的方法似乎都可用于进行综合评价。因为任何统计指标都综合了一定的有关信息,例如,平均预期寿命这个统计指标,就综合了某地某年居民健康状况、卫生状况、经济文化状况以及社会政治因素等多方面的信息,或者说,这个指标可用于对某人群上述几方面的状况进行综合评价。此外,如多维列联表分析方法、析因试验设计分析方法、正交试验设计分析方法等,都可综合多个因素对某一结果进行综合评价。
近年来随着电子计算机的发展而发展起来的多元统计分析方法,如多元回归和逐步回归分析、判别分析、logistic回归分析、因子分析与主成分分析、聚类分析、时间序列分析等,已经在很多疾病的诊断、治疗、预后估计、危险因子分析以及少年儿童生长发育分析等方面得到成功应用,无疑可作为综合评价的方法加以运用。近30年来随着模糊数学的发展而发展起来的模糊多元分析方法,如模糊聚类、模糊判别、模糊综合评判等方法,也大大丰富了综合评价方法学的内容。当然,鉴于评价通常服务于决策,因而诸多决策分析方法也可用来进行评价,例如决策树法等。
此外,在医疗卫生工作实践中,人们还采用了一些较为简单、快速、实用而具有非参数色彩的综合评价方法,如综合指数法、综合评分法、秩和比法、包络分析法、TOPSIS法、密切值法、功效系数法、交叉积差法、综合图形法、优序法、普通相关法、灰色模型法、层次分析法、决策树法等。尽管这些方法在理论上还存在这样或那样的问题,例如还不能有效地进行误差估计等。但已经应用于医疗卫生的各个领域,尤其在儿科领域中对各种发育阶段儿童生长发育评价,围生医学领域中的胎龄评估,预防医学领域中生活及生产环境评价、营养评价,以及医疗卫生管理科学中医院工作效率,科研方案评估等方面取得了较大的成功,展示了这些方法可观的应用前景。这些方法将在以后各章中分别加以介绍。