上QQ阅读APP看书,第一时间看更新
第三节 肿瘤免疫营养分析性流行病学研究
分析性流行病学研究(analytic epidemiologic study)是在描述性流行病学研究提供初步病因假说的基础上,采用周密的设计,检验或验证描述性研究提出的病因学假设。分析性流行病学研究通常包括病例对照研究和队列研究。
一、病例对照研究
(一)定义
病例对照研究(case-control study)是以现在确诊的患有某种特定疾病的患者作为病例,以不患有该病但具有可比性的个体作为对照,通过询问、实验室检查或复查病史,搜集既往各种可能的危险因素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,若两组差别有意义,则可认为因素与疾病之间存在统计学上的关联。在评估了各种偏倚对研究结果的影响之后,再借助病因推断技术,推断出某个或某些暴露因素是疾病的危险或保护因素,而达到探索和检验疾病病因假说的目的(图2-3-1)。例如,在类黄酮摄入与结直肠癌患病风险的病例对照研究中,对1632例合格的结直肠癌病例和1632例年龄和性别与病例匹配的对照采用食物-频率调查表(food frequency questionnaires,FFQ)面对面调查,测量并比较病例组与对照组中黄酮类的暴露量,显示蔬菜和水果中的黄酮类可能降低患结直肠癌的风险 [1],以上就是病例对照研究的一个典型案例。
(二)病例和对照的选择
病例对照研究的病例和对照的选择是至关重要的。病例对照研究中的病例可以是新发病例(incident cases)、现患病例(prevalent cases)或死亡病例(dead cases),最理想的是选择某一时间段内某一特定人群中的全部新发病例。当选择现患病例时,易发生选择偏倚(selection bias)。例如,某胃癌患者在确诊后遵医嘱摄入易消化食物,但是当研究者在其确诊后5年调查其既往的饮食情况时,患者会无意识地混淆时间上的顺序,报告生病后的饮食情况,致使在得出引起胃癌发病的饮食暴露时出现错误结论,这也被称为“现患病例-新发病例偏倚(prevalence-incidence bias)”,又称奈曼偏倚(Neyman bias),属于选择偏倚。
图2-3-1 病例对照研究原理
另外,病例的选择不能受暴露史的影响,也就是说有暴露史的病例和无暴露史的病例有相同的几率进入该项研究。例如,如果想研究肺癌发生的危险因素,而吸烟作为疑似危险因素之一,如果只有部分肺癌患者参加研究,此时需要确保吸烟的人在肺癌组所占的比例和其在全人群所有发生肺癌的人中所占的比例是相同的,或者至少是相似的。
在病例对照研究中,对照的选择往往比病例的选择更复杂、更困难,是非常有挑战性的一个环节。对照组最好是全人群的一个无偏样本或是产生病例人群中全体未患该病的人的一个随机样本,对照可以选择社区人口中的一般人群、医疗机构中诊断的其他疾病的患者、患者的邻居或亲戚朋友、社会团体人群中的非该病病例或健康人等,其中选择社区人口中的一般人群作为对照是最接近全人群的无偏样本的,而医疗机构中诊断的其他疾病的病例使用的最多。Wacholder等 [2]总结了选择对照的基本原理:第一,对照组是从产生病例的人群或队列中选择的一个有代表性的样本;第二,对照组和病例组除所研究的疾病外应尽可能地相似,尤其是在不能直接测量的混杂因素方面;第三,对照组和病例组在暴露因素的测量准确程度上应该尽可能地相似。
(三)分类
病例对照研究的研究设计根据病例和对照匹配与否分为不匹配病例对照研究和匹配病例对照研究。在病例对照研究中,有时根据病例的某些特点来选择具有相同特点的对照,称为匹配(matching),传统的观念认为匹配的目的是去除混杂效应,后来Rothman等 [3]经过研究提出匹配的目的不是为了消除匹配因素的混杂效应以确保研究结果的真实性,而是为了提高控制混杂因素的分层分析的效率,也就是研究结果的精确度。匹配的因素大多是潜在的混杂因素,目前常见的混杂因素包括年龄、性别、种族、职业、疾病家族史等。如果把不必要的项目列入匹配,企图使病例和对照尽量一致,就可能徒然丢失信息,增加工作难度,结果反而降低了研究效率,这种情况成为匹配过头(over-matching),应尽量避免。例如,在研究雌激素和子宫内膜癌的病例对照研究中,除了匹配患者年龄等基本信息以外,还选择了子宫内膜增殖症作为匹配因素,致使符合条件的病例与对照大大减少,降低研究了效率,并且使病例组与对照组比较的比值比更接近于1,易出现假阴性结果 [4] 。
随着实践的衍变,相对于传统的病例对照研究,又产生了巢式病例对照研究、病例队列研究、病例置换研究等较新的研究类型,是对传统病例对照研究的改良和提高。其中,巢式病例对照研究(nested case-control study)利用最为广泛,它是在研究开始时根据一定的条件选择某一人群作为队列,病例组是在随访过程中产生的新发病例,对照组则是当每个新病例发生时从队列中尚未发病的成员中随机选择的,它是将传统的病例对照研究与队列研究相结合形成的一种研究方法。
(四)适用范围
病例对照研究广泛应用于各种疾病,包括传染病和非传染病,特别适用于罕见病的研究,因为病例对照研究不需要太多的研究对象,有时往往是罕见病病因研究的唯一选择。同时病例对照研究是一种“由果及因”的观察性研究,相对更省力、省钱、省时间,较易于组织实施。该方法不仅应用于病因学研究,还可以用于疫苗免疫学效果考核、传染病暴发调查等方面,它可以同时研究多个因素与某种疾病的联系,特别适用于探索性病因研究。
(五)偏倚
病例对照研究是一种回顾性的研究,是在疾病发生之后去追溯假定的病因因素的方法,所以有更多的机会发生偏倚。当纳入的研究对象(样本)获得的有关因素与疾病的联系系统偏离了目标人群(总体)中该因素与疾病之间的真实联系时就产生了选择偏倚(selection bias)。当病例对照研究中,病例和对照按照不同条件选择,而这些条件又与既往暴露史有关,就容易出现选择偏倚。病例对照研究中容易发生入院率偏倚(admission rate bias)又称Berkson偏倚、现患病例-新发病例偏倚、检出症候偏倚(detection signal bias)、时间效应偏倚(time effect bias)等选择偏倚,以上这些偏倚在医院为基础的病例对照研究中更易发生。另外,病例对照研究是一种回顾性调查,暴露史主要依靠被调查者的回忆,但是如膳食史这类复杂繁琐的问题很难准确回忆,所以病例对照研究易受回忆偏倚(recall bias)的影响,致使一些被认为可能与患病有关的暴露史,病例易高估,对照易低估,歪曲暴露与疾病的关系,产生错误的结论。
(六)资料整理和统计分析
病例对照研究常采用的效应估计指标为比值比(odds ratio,OR),它是指病例组的暴露比值与对照组的暴露比值之比,表示疾病与暴露之间的联系强度。匹配设计和不匹配设计病例对照研究OR值的计算方法略有差异,不匹配设计OR= ad/ bc( t≠0)(表2-3-1),1 ∶1匹配设计OR= c/ b( t≠0)(表2-3-2)。
表2-3-1 不匹配不分层病例对照研究资料整理表
表2-3-2 1∶1配对不分层病例对照研究资料整理表
具体统计实践的过程中我们常借助统计分析软件(SPSS、SAS、Stata等)分析匹配与不匹配、分层与不分层、单因素与多因素数据。以四格表为例,首先采用卡方检验、Fisher精确概率法或计算单因素OR值及95%可信区间,比较该暴露因素与疾病是否有统计学关联以及关联强度,进一步采用多因素分析如Logistics回归等,校正主要混杂因素(confounding factor)后评价暴露因素与疾病是否仍有统计学关联,以及具体的关联强度。
二、队列研究
(一)定义
队列研究(cohort study)也称定群研究、群组研究、前瞻性研究(prospective study)、发病率研究(incidence study)、随访研究(follow study)或纵向研究(longitudinal study)。队列研究是选定暴露及未暴露于某因素的两种人群或者暴露于某因素不同水平的人群,随访追踪并观察记录其各自的疾病或健康状态的结局(发病、复发、进展或死亡等),比较各组结局发生率(发病率、复发率或死亡率等)的差异,从而判定暴露因子与结局有无因果联系的一种观察研究方法(图2-3-2)。例如,确定围术期肠内免疫营养是否会降低腹腔镜妇科肿瘤患者的伤口并发症的研究中,纳入338例接受腹腔镜治疗的妇科肿瘤患者,按照是否暴露于肠内免疫营养分为两组,术后30天随访发现术后肠内免疫营养的应用会降低伤口并发症的发生率,同时可能会减少手术部位2、3级感染的发生率 [5],这篇文章采用了历史性队列研究的研究方法。
图2-3-2 队列研究原理
(二)特点
队列研究的特点如下:第一,是观察性研究。队列研究中的暴露不是主动干预、人为给予的,是在研究之前客观存在的,研究者在研究过程中被动观察、客观记录、如实反映研究对象的自然暴露以及随访结束时的疾病或健康结局,这也是区别于干预实验的一个重要特点;第二,是前瞻性、由因及果的研究。所有研究对象在进入队列时都有可能发生但并未发生所研究的疾病,但此时暴露已经发生并都已知暴露情况,从时间顺序上暴露发生于结局之前,符合因果推断的时序性,所以队列研究在病因学研究中有较强的因果推断能力。第三,是比较性研究,可计算发病率等量化指标。队列研究可以比较不同暴露组的预期结局的发生率,例如可以计算发病率、累积发病率、归因危险度以及人群归因危险度等。
(三)用途
基于队列研究的研究设计和特点,其可以深入地检验病因假设,具有较强的检验病因假设的能力;由于某些暴露有预防结局发生的效应,所以队列研究还可用于评价预防效果;队列研究是通过随访追踪患者的方式获得结局资料,在此过程中,可以描述疾病的自然史和疾病发生发展的长期变动趋势。
(四)分类
队列研究从研究设计角度,按照进入队列及终止观察时间的不同,可分为以下三种类型:如果研究对象在研究开始时根据现在的暴露状态分别进入各比较组,此时研究结局尚未发生,需要经过一定的观察随访时间才能观察到研究结局,则称为前瞻性队列研究(prospective cohort study),具有可信度高、偏倚少的优点,但是也存在费时、费人力、费物力、费财力的缺点,研究的可行性容易受到影响;如果研究对象在过去的某个时点根据过去的暴露状态进入各比较组,然后从历史资料中获得研究对象从过去的某个时点到现在的整个时段中研究结局的发生情况,研究设计的性质仍属前瞻性,只不过收集资料的方式是从历史资料中获得的队列研究,称为历史性队列研究(historic cohort study),此种研究弥补了前瞻性队列的缺点,但是由于历史档案不一定符合设计要求,所以研究受到数据完整性、全面性、准确性的影响;如果在完成了历史性队列之后,继续进行前瞻性队列研究称为双向性队列研究(ambispective cohort study),该方法兼具了两者的优点,并在一定程度上弥补了两者的不足,这种设计适合评价对结局同时具有短期效应和长期作用的暴露因素(图2-3-3)。
(五)基线资料收集
在队列研究的具体实施过程中,收集基线资料是关键环节,也是分析暴露与结局关系的数据保证。基线资料是指在研究对象选定之后,收集的在研究开始时的队列成员的基本情况,主要包括人口学特征、主要暴露测量资料、结局测量资料、与主要暴露有关的其他因素资料和影响结局发生危险性的其他因素的资料。人口学特征一般包括性别、年龄、婚姻状况、文化程度、职业特征等,这些资料反映人的社会属性;主要暴露测量资料的收集除了暴露与否、暴露水平以外还要考虑暴露持续时间和暴露方式,研究中需要定义好暴露测量方法,统一测量标准,严格质量控制;结局变量是在随访观察中研究者关注的预期结果事件,它不仅局限于发病和死亡等终极、定性结果,还包括血清抗体滴度等中间、定量结果。队列研究收集多种结局资料,除规定结局以外,非预定结局的疾病或死亡的信息也要收集。结局变量的测定应给出明确统一的标准,并在研究的全过程严格遵守;除此之外,各种既与暴露有关的又可影响结局发生危险性的生物遗传、环境、行为和社会因素等混杂因素,也必须一并收集,以便控制混杂效应、估计和测量交互作用。
图2-3-3 队列研究分类
基线资料来源主要包括查阅医院、单位体检等记录或档案,访问队列成员或其他知情人获取信息,对队列成员进行实验室检查获得检验数据,现场的环境调查与检测获得环境测量数据。获得基线数据后,应对暴露组间的基线数据进行对比分析,确保暴露组间基线资料均衡可比,保证研究结果的真实性。
(六)随访
在完成研究对象纳入和基线数据收集后,队列研究的主要任务是确定各比较组研究结局的发生情况,这个过程称为随访(follow-up)。随访是为了定期或不定期了解曾在医院做过一定医疗处理的患者的预后情况、远期疗效及其生存质量,常采用家庭访视、预约复查以及通过各种通讯方式联系患者或家属,了解患者病情动态的一种手段。随访时间间距和随访期限要视不同疾病的不同临床分期和不同治疗方法而设定,包括近期随访和远期随访。肿瘤是一种严重危害人类生命和健康的疾病,尤其是恶性肿瘤,它在生物学方面具有局部复发和全身转移的特性,对很多肿瘤患者的治疗需要多个周期,是一个长期的工程,因此对于肿瘤患者出院后的随访工作尤显重要。
在患者的随访过程中,在一个较长的追踪观察期内,总会有患者迁移、外出、死于非终点疾病或拒绝继续参加观察而退出队列,称为失访(lost to follow-up)。由于失访从本质上破坏了原有样本的代表性,影响研究真实性,导致了失访偏倚(withdraw bias)的发生。失访是我们不愿意看到的,又是不可避免的。所以,一方面要采取措施减少失访,措施主要包括尽可能选择比较稳定的人群作为观察对象,采用各种手段和工具向观察对象进行宣传和动员争取支持和合作,定期医学检查采用渐变异性和易被观察对象接受的手段和方法,尽可能利用多种来源收集结局资料,反复多次追访等;另一方面要估计失访偏倚的方向,比较有无暴露或不同暴露程度组间的失访率有无差异,还要比较随访到的人群与失访人群某些特征是否有差异。如果失访是随机的,则失访带来的影响较小,主要来源于样本量减少带来的检验效率的降低;但是如果失访不是随机的,尤其是高危人群的失访,研究结果会有较大的偏倚,例如,确定围术期肠内免疫营养是否会降低腹腔镜妇科肿瘤患者的伤口并发症的历史性队列研究中,高龄是术后感染的高危因素,如果肠内免疫营养组高年龄段患者的失访率明显高于或低于非肠内免疫营养组,那么将会错误估计围术期肠内免疫营养对伤口并发症的影响。
(七)资料的整理和统计分析
队列研究可以直接计算各暴露组结局事件的发生率,如发病率、发病密度、死亡率、标化比等,采用卡方检验、Fisher精确概率法、秩和检验、二项分布或Poisson分布检验等单因素统计方法比较组间有无统计学差异,采用相对危险度(relative risk,RR)、归因危险度(attributable risk,AR)、归因危险度百分比(attributable risk percent,AR%)、人群归因危险度(population attributable risk,PAR)和人群归因危险度百分比(population attributable risk percent,PAR%)等指标评价暴露的效应。进一步采用Logistic回归模型、COX比例风险模型和Poisson回归模型等多因素统计分析和分层分析校正混杂因素,结合病因推断理论,做出因果推断。队列研究的数据整理表如下(表2-3-3):
表2-3-3 队列研究的资料整理表
队列研究常采用的效应估计指标为相对危险度(relative risk,RR),是暴露组的发病率或发病密度( a/ n 1)与非暴露组的发病率或发病密度( c/ n 0)之比,RR是反映暴露与结局(发病或死亡等)关联强度的指标。
参考文献
1. Xu M, Chen YM, Huang J, et al. Flavonoid intake from vegetables and fruits is inversely associated with colorectal cancer risk: a case-control study in China. Br J Nutr, 2016, 116 (7): 1275-1287.
2. Wacholder S, Silverman DT, Mclaughlin Jk, et al. Section of controls in case-control studies. Ⅲ. Design options. Am J Epidemiol, 1992, 135 (9): 1042-1050.
3. Rothman KJ, Greenland S. Modern epidemiology. 2nd ed. Philadelphia PA: Lippincott-Raven. 1998.
4.徐彪.流行病学原理.上海:复旦大学出版社,2007.
5. Chapman JS, Roddy E, Westhoff G, et al. Post-operative enteral immunonutrition for gynecologic oncology patients undergoing laparotomy decreases wound complications. Gynecol Oncol, 2015, 137 (3):523-528.