第二节 研究方法与评价
根据当前流行病学研究方法的分类,将精神障碍流行病学的研究方法分为观察法、实验法和理论及方法的研究三大类。观察法包括描述性研究和分析性研究;实验法包括临床试验和社区试验;理论和方法的研究是将流行病学调查所得的数据建立数学模型,阐明精神障碍的流行病学规律。而精神障碍流行病学还广泛应用心理学理论和测量方法研究人群的精神障碍和精神卫生状况,这是本学科的特殊研究方法。
一、常用的研究方法
横断面研究是对目标群体精神障碍现患状况及其相关因素的现况调查,是对疾病危害严重程度的社区诊断、疾病的临床和亚临床特征、未知症候群进行描述的研究方法,它可为探讨精神障碍的病因提供线索,了解某特定时间、地点的医疗卫生服务需求和利用状况。此类型的代表性研究有美国于20世纪80年代进行的现患率研究和我国1982年和1993年进行的两次大型流行病学调查。由于精神卫生问题的不确定性、隐匿性、复杂性、渐进性等特点,仅能提供较准确的现患病资料,难以推论患率的差异是缘于发病率不同还是病程不同。因此,不能提供较强的因果关联的证据。
2005年石昌其等人报道了浙江省15岁及以上人群的精神障碍流行病学调查结果。该调查采用多阶段整群抽样方法,随机抽取了14个县(市)70个乡镇(街道)、140个村(居委会)中15 000名≥15岁的人为调查对象。分别采用一般健康问卷(GHQ-12)以及美国精神障碍诊断标准(DSM-Ⅳ)进行初筛、诊断。结果表明,调整后精神障碍总时点患病率为17.3%,总患病率农村高于城市,女性略高于男性。说明精神障碍是严重影响浙江省社会经济发展的、迫切需要解决的公共卫生问题。
根据某种精神障碍的病例设立可比性对照,比较两组过去和目前暴露于某一种或多种危险因素的程度,从而探讨这些危险因素与疾病发生的关系。这是探讨精神障碍发病危险因素的常用方法。常用比值比作为研究因素与疾病关联程度的指标。
贾存显等(2005)进行了汉族人群自杀未遂的环境危险因素、儿茶酚胺氧位甲基转移酶(COMT)158/108基因多态性与自杀未遂的关联研究。采用配对的病例对照研究方法,对205例自杀未遂者与相应对照(与病例同性别、年龄相差3岁以内、同地区)进行COMT158/108基因型测定、环境因素与自杀未遂的关系研究。结果表明:病例组与对照组在COMT基因型、基因频率上差别无统计学意义;多因素条件Logistic回归模型分析显示,COMT158/108Val/Val、文化程度低、吸烟、情感冲突、精神障碍、抑郁皆为自杀未遂的危险因素,OR值分别为2.43(95%CI:1.10~5.40)、5.70(95%CI:1.88~17.27)、3.54(95%CI:1.02~12.36)、10.96(95%CI:4.74~25.34)、6.35(95%CI:1.68~24.05)、11.30(95%CI:4.58~27.89)。
前瞻性地观察某一群体在一定时期内精神障碍的发病情况,因精神障碍的发病时间具有不确定性,对初始病例和观察期间新发病例的确定带来一定困难。多数发病率研究以美国精神障碍诊断统计手册中诊断标准的时间作为发病时间的标准。前瞻性队列研究以是否观察暴露因素与发病的关系又分为发病率和发病危险因素的研究。发病率研究往往在横断面调查基础上进行,如美国ECA项目、加拿大Stirling地区的研究(Murphyt等,1988)和瑞典Lundby研究(Hagnell等,1982),其测量指标都是发病率。发病危险因素研究是根据可疑因素暴露程度确定队列,比较各组将来的发病情况。如观察灾后受灾群体、不同职业人群、战争应激退伍军人及核爆炸事故后周围居民精神障碍发病情况均属于此类研究。
根据过去危险因素的暴露情况探讨暴露因素与目前疾病状态或某种结局的关系。进行该研究设计时应注意暴露资料记录的完整性、潜在混杂因素的影响、研究队列的代表性及结局测量的可靠性。
我国赵贵芳等于20世纪80年代和90年代先后对精神分裂症和情感性精神障碍的预后和遗传学进行30年回顾性队列研究,对先证者一、二级亲属进行了精神障碍访谈调查,分析了遗传因素在精神分裂症和情感性精神障碍发病中的作用。
在实验性研究中,研究者将研究对象随机分组,施加干预措施,观察实验效果。由于精神障碍尚无可观的实验室检查指标,除随机化分组和盲法对照外,安慰剂对照在精神科临床试验研究中更为常用。在人群中进行随机化试验应考虑伦理道德问题,只可施加有效的治疗,将可能有害的因素进行随机分组是不道德的。另外,一些素质性因素如遗传特征和其他可能影响精神状态的社会人口学特征,如婚姻状况和宗教信仰等,难以做到随机化。还有,如果观察时间较长,治疗效果可能因时间而变得不明显。Gibbons等1993年报道一项心理治疗抑郁症的随机化临床试验。试验目的是比较评价认知行为疗法(CBT)和人际关系心理治疗(IPT)与丙米嗪常规治疗(IMI-CM)的效果。同时设立安慰剂对照组(PLA-CM)。250例抑郁症病人随机分到上述四组,其中239例进入试验,219例试验开始后进行了抑郁状态评价。抑郁状态由临床测评者应用Hamilton抑郁量表进行盲式评定。本研究有三个主要假设:①IPT和CBT疗效无差异;②心理治疗和IMI-CM疗效无差异;③IMI-CM和PLA-CM疗效无差异。研究结果验证了第一和第二个研究假设,但是常规治疗组疗效优于安慰剂组。文章还详细描述了因随机化后退出试验、资料缺失和各协作单位间差异所致偏倚的控制方法以及统计模型假设。该研究是精神科随机化临床试验中代表性研究方案之一。
二、常用的精神障碍测量量表
鉴于精神卫生问题尚无客观、可靠的实验室检查方法,流行病学研究的关键是如何正确地对精神障碍的严重程度和精神状态做出评价。有关病例的信息可以从医疗机构的病案记录和社区病例登记中获得,更重要的是来自直接访谈和从检查中获取。精神障碍流行病学广泛地应用心理学理论和测量方法来研究人群的精神障碍和精神卫生状况,这是本学科的特殊研究方法。适宜的测量工具取决于研究目的、测试对象、调查时间,可利用的人力、物力和财力,测量工具的信度、效度和安全性及可行性,甚至还要考虑到测量工具的方法适应性等诸多因素。
精神障碍的流行病学测量方法可分为筛查工具、诊断工具、残障程度和功能水平评定工具、症状评定量表、行为评定工具、积极健康评定工具、应激及相关研究工具、人格特质评定工具及其他工具。也可分为自评式问卷调查、半定式检查、定式检查或多种工具联合应用。
自评式量表系由被调查者自己实施完成的调查问卷,一般包括填写指导语、测量条目、选择答案和量化编码几部分。可用于通信、集体和家庭作业式调查。结果可按条目、总分和根据常模分级进行统计。自评式量表调查简单易行、费用低,短时间内可收集大量资料,调查程序和评价标准容易统一,统计结果方便。但自评式量表容易受当时状态的影响,对于一些社会不期望性条目易于产生应答偏倚,症状的严重程度是基于被调查者的主观感受。另外,通过自评式量表不能了解过去的症状和发生发展状况及合并症,也难以做出临床诊断。因此,自评式量表主要用于轻型精神障碍的现况调查和重型精神障碍调查的筛检工具。目前,国内外常用的自评式量表有一般健康问卷(GHQ)、抑郁自评量表(SDS)、焦虑自评量表(SAS)、症状90筛检表(SCL-90)等。中国心理卫生杂志社编辑出版的《心理卫生评定量表手册》对于精神障碍流行病学研究十分有用,书中介绍了多种量表和测量工具的测量目的、使用方法、常模、注意事项和统计指标。
定式精神障碍访谈量表是由基于核心症状的一组组固定的问题所构成,评定者根据被调查者的应答记录答案,不需要精神科临床诊断,非专业人员经过一定培训可以使用。通过定式访谈可以做出精神障碍诊断,了解精神障碍的发生发展和合并症。常见的定式访谈量表为非专业人员用诊断访谈表(DIS)和WHO复合性国际诊断访谈表(CIDI),以及专业人员用神经精神病临床评价表(SCAN)等。用于儿童青少年精神障碍流行病学研究量表主要有两种,即儿童诊断访谈表(DISC)和儿童青少年精神科评价表(CAPA)。
定式精神障碍访谈需要时间较长,对大面积人群调查在人力、物力和财力不足的条件下实施较困难。可采用筛检-访谈相结合的方法,即先用自评式量表进行筛检,然后对于筛检阳性者进行定式精神障碍访谈。同时,抽取部分筛检阴性者也进行定式精神障碍访谈,以估计漏诊情况和计算校正患病率。这种方法克服了自评式量表调查的不足,又节省了时间和物力。英国20世纪90年代初进行了OPCS精神障碍患病率研究。研究者先用GHQ、临床访谈修订表(CIS-R)和精神病筛检表(PSQ)对所有被调查者进行筛检,然后精神科医生对筛检阳性者用神经精神临床评价表(SCAN)进行访谈诊断。
三、测量量表的评价
由于精神卫生领域的相关问题易受行为和社会心理等因素的影响,难以通过一两次的流行病学调查来澄清相应的精神症状和复杂的病程,同时也很难确定精神卫生问题与危险因素之间的因果关系。因此,明确诊断的分类是流行病学研究的先决条件,同时选择适宜的精神症状测量方法和正确地评价测量工具的信度和效度是保证精神卫生流行病学研究质量的关键。
信度(reliability)指测量的可靠性或可重复性。信度的评价可以从量表内部的一致性、重测一致性和不同评定者测量的一致性三个方面来实现。
量表内部的一致性指构成量表的各个条目反映所要测量的心理特征或病理维度的一致性。由于某些因素的影响可能造成对信度估计的偏倚。如果各条目反映的不是同一病理维度,将会使信度的估计过低。
选用不同量表测量时,其测验结果在一定间隔时间内两次测验结果应当是一致的。由于人的精神心理状态容易受到多种因素的影响,所以确定适宜的间隔时间是十分重要的。
不同检查者应用同一被试者测量结果相同的程度,称之为评定者间一致性。当测量结果为二项分布变量时,可采用Kappa值估计评定者间的一致性;当测量结果为等级资料或计量资料时,用ICC系数来估计一致性。
效度(validity)指测量工具的有效性或准确性,即测量工具正确反映所要测量指标的程度。效度的评价可从以下五个方面进行。
1.内容效度
内容效度指测量工具所包含的条目与所要测量内容的一致性。测量工具的内容效度取决于选择条目的代表性。内容效度可以通过相关领域的专家或权威人士进行评价,但尚无统计学检验方法。
2.效标效度
效标效度,又称之为预测效度,通过比较所要评价测量工具的测量结果与公认标准测量结果或效标的一致性进行评价,强调实际结果而不是内容。根据效标与测量实施的时间关系分为:回顾性、同时性和预测性。
3.构想效度或理论的真实性。
4.表面效度
表面效度指量表的设计给调查者的主观感受,包括指导用于构想效度是一个十分复杂的概念,是评价所要测量指标概念是否容易接受、条目的排列方式和表达是否明确、标准是否明确、答案是否容易选择和有无计算机编码等。
5.程序效度
程序效度指其他调查员应用该量表时与熟练调查员测量结果的一致性,包括评定者间的一致性和效标效度。