人体寄生虫病基层预防控制丛书  寄生虫病监测与管理
上QQ阅读APP看书,第一时间看更新

第三节 数据收集与分析

一、收 集
目前,我国寄生虫病症状监测数据的应用尚处于初期阶段,症状监测系统采集的数据主要是对特定寄生虫病做出诊断并报告给公共卫生机构之前的某一组(类)或多组(类)症状信息而不是诊断信息。因此,症候群数据是症状监测系统数据的基础且早于临床诊断的信息,主要与所要监测的症候群种类及目标疾病有关。
(一)寄生虫病症状监测数据来源
从个体水平来看,主要包括寄生虫特征、患者(或感染者)行为、相关服务供给行为等;从群体水平来看,主要包括人群易感性、寄生虫病流行水平(发病率、患病率、感染率等)、人群迁移状态等;从传播媒介来看,主要包括媒介孳生环境、媒介感染或患病情况等。在实际中应用较多的症状监测数据源包括3类:一是临床数据,如门诊就诊数、诊断日志、医院入院数、临床实验室检测、放射或影像检查等;二是其他数据,如医护热线电话信息、药物使用记录、缺课缺勤记录、动物疾病和死亡、媒介资料等;三是个体症状相关的基本信息,患者性别、年龄、住址、邮政编码和联系电话等。
不同时间阶段的监测数据类型详见图6-1。基于各种数据源,症状监测数据的有效性可以从数据信息的及时性和特征化进行评估,表6-2提供了不同数据的分类情况。
图6-1 症状监测数据收集过程
表6-2 基于数据及时性和特征化的数据来源
(二)症状监测数据收集方法
数据收集方法主要取决于监测目的、疾病症候群、相关原始数据记录、医疗机构信息管理方式和水平等。对于旨在消除的如疟疾和血吸虫病,我国主要采用主动监测和被动监测两种方式收集数据,并实施早期预警的病例监测;对于广州管圆线虫病等食源性寄生虫病早期预警的病例监测,则是采用被动监测方式。因此,寄生虫病症状监测数据收集方法因疾病流行程度、数据的提供和传输要求、专用计算机网络基础等而不同。
由于症状监测数据主要是非特异性数据,其精确性难以保证,数据收集时应注意以下几个方面:一是数据的代表性,监测数据是否能代表目标人群,尤其是地区分布对目标寄生虫病暴发监测十分重要;二是数据的完整性,采集绝大多数监测目标信息并输入信息管理系统;三是数据的稳定性,监测过程中应该保证数据质量的稳定性。
二、分 析
症状监测数据分析主要以各类症状的频数为基础,自动进行监测数据的统计分析,包括时间、空间有无聚集性、人口统计学特征、计算比值比( OR值)等。其目的主要是发现或检测出疾病暴发或症候群发生率异常升高的“信号”,及时预警。这就需要预先建立发现和判定症状群异常值的基线水平或阈值。运用不同时间、空间或时间-空间的统计分析方法进行异常数量的预警,利用图表等形式呈现给公共卫生人员,以便掌握症候群的流行情况,及时做出预警。
(一)常用统计图表
1.直条图
直条图用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图的直条尺度必须从0开始,各直条的宽度相等,间隔一般是直条宽度的一半或与直条等宽,直条排列顺序可按指标值大小排列,也可按分组的自然顺序排列。图6-2显示某地区某时期内非特异性症状的发生情况。
图6-2 某时期主要症状发生情况
图6-3 某时期某症状的年龄分布
2.直方图
直方图是以各直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量资料的频数分布。直方图的纵轴为频数,横轴为数值变量值,若各组的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。另一种表示数值变量资料频数分布的方式是将各组观察频数除以总观察频数得到各组段的频率,以各组段频率除以组距得到的频率密度作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各级频率,其面积的总和为1。图6-3显示某地某时期发热症状的年龄分布。
3.线图
线图是用线段的升降来表示数值变化,适于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化的趋势。通常纵轴为统计指标,横轴为时间或其他连续性变量。如果横轴和纵轴都是算术尺度,称普通线图,其纵轴一般以0点作起点,否则需作特殊标记或说明;纵轴是对数尺度,称半对数线图,特别适宜作不同指标变化速度的比较。不同指标或级别可以用不同的线段形式(虚线或实线)或不同线段颜色来表示,各测定值标记点间用直线连接,不可修匀成光滑曲线。图6-4显示某地某时期内发热人数的变化趋势。
图6-4 某时期发热病例数的变化趋势
(二)统计分析方法
通常,一个症状监测系统涉及多种统计分析方法,主要包括三种类型的数据分析方法:①时间序列分析:如通过训练数据与预定参数进行优化的静态循环回归模型,参数基于从历史数据学习的线性函数,季节性影响可自适应的时间序列分析;②空间分布分析:如利用简单几何形状扫描整个区域,基于似然比度量,贝叶斯建模,将地区、周、日、假期和季节变化等多种参数考虑在内的广义线性混合模型;③时空分布分析:扩展的空间扫描统计模型,搜索所有分区域可能在空间和时间上的多似然比检验,寻找具体特征群体(年龄、诊断及相关疾病等)。本节内容主要介绍以下3种统计分析方法,有关模型的分析方法可参考第九章。
1.指数权重移动平均方法(Exponentially weighted moving average,EWMA)
指数权重移动平均方法是一种重要的统计过程质量控制方法,由罗伯特于1959年首先发展,但是近年来才应用于症状监测系统。其主要原理是使用历史病例报告数据建立预警数据库,采用控制图法建立预警模型,利用专家咨询法确定流行参照标准,通过计算和比较灵敏度、特异度、阳性预测值和绘制受试者工作曲线,选出合适的预警界值。我国有学者应用了控制图法对7种传染病进行预警,结果显示这种预警方法有很高的灵敏度和特异度,预警功效较高。其基本运算方程式如下:
S t=α y t-1+(1-α)S t-1
其中 α为权重(0﹤ α≤1),y t是 t时间点(t≥3)的观测值,S t是指数加权后的平均观测值。
2.累计和控制图(Cumulative sum control chart,CUSUM control chart)
累计和控制图是仿照发展已久的工业用流程监控统计方法,用于症候群或病历资料数量异常的监测。曾在1999年被用于监测罕见疾病发生率的异常情况,目前该方法被许多国外监测系统应用,如美国的异常事件早期报告系统,就应用此方法设定了3种不同的累积和控制图统计量,分为轻、中、重三个等级,作为每日资料异常监测的参考依据。通过不同的运算式和设定阈值(两倍或三倍标准差)进行异常预警,其将过去序列的资料变异数量累计汇总,用来监测病例数量变化较小的暴发疫情。CUSUM方法可根据不同的资料选择不同的累计和控制图统计量,也可依据不同的需求或按不同的危险因素分层进行统计方程式的修改,但在应用此法时必须慎重地考虑流行病学分组的问题。其基本方程式如下:
S t=max(0,S t-1+((X t-(μ 0+ kσ xt))/σ xt))
其中S tt时间点的累积变异量,X t为时间点的观测数量, μ 0是观察区间的平均值, σ xt是观察区间的标准差, k是异常参考值。此方法依照敏感度的不同,设定出三种不同的统计量(SUSUM1、CUSUM2、CUSUM3),CUSUM3(C3)最高,CUSUM2(C2)次之,CUSUM1(C1)最低。
3.扫描统计量(Scan statistic)
扫描统计量由Naus于1965年提出,最初应用于识别一维点过程的聚集性,后来逐渐扩展至探讨事物二维空间和三维时空上的聚集性。在公共卫生领域,可用于疾病暴发的早期发现、潜在公共卫生风险的早期发现和监测;在寄生虫病学领域,扫描统计量常用于分析寄生虫病及相关媒介在时间、空间或时空分布上是否存在聚集倾向或趋势。根据数据的时间、空间维度不同,可分为时间扫描统计量(Temporal scan statistic)、空间扫描统计量(Spatial scan statistic)和时空扫描统计量(Spacetime scan statistic或Spatio-temporal scan statistic),在症状监测中应用广泛。
时间扫描统计量可用于识别时间轴上的一个或几个聚群,该方法已经应用于血吸虫病聚集区域的探测、感染性钉螺分布预警,以及疟疾时空聚集性和疟疾高发区的时空分布特征分析等方面。设观察时间 t内发生的症状数为 N,已知每个症状数发生的时间(点过程),定义长度为 w的扫描窗口,从时点 t i(0≤ t itw)开始扫描整个观察期 t,记录各窗口症状数的最大值 S max,即为扫描统计量。如果症状数 N为已知常数,无效假设为症状的发生属于均匀分布。如果大于一个扫描窗口时间长度内的病例数,则提示有时间聚集性的可能。空间扫描统计量是时间扫描统计量由一维时间向二维空间的扩展,用于识别症状的发生是否具有空间聚集性以及近似的聚集位置。数据形式可以是点数据(症状的坐标),也可以是区域数据(每一地区内症状数)。与一维的时间扫描统计量相比,二维的空间扫描统计量的计算更为复杂,其假设检验过程主要是构建似然函数、求解最大似然比, P值的计算采用蒙特卡罗模拟法。时空扫描统计量是空间扫描统计量由二维空间向三维时空的扩展,用于识别时空上的聚集性和近似的聚集位置及时间,时空扫描统计量同样采用蒙特卡罗模拟法计算 P值并判断是否存在时空聚集性。通过时空扫描统计量可对既往资料进行回顾性的研究,还可前瞻性地定期监测疾病发生发展动向。