医学科研方法
上QQ阅读APP看书,第一时间看更新

第二节 抽样调查研究设计与实施

一、研 究 目 的
探索适合该省成年居民的人体指标适宜切割点,分析其筛检价值,为糖尿病的早期预防和诊断提供依据。
二、研 究 类 型
横断面研究(抽样调查)。
三、确定研究对象
1.年龄为18~69周岁。
2.监测点地区居住6个月及以上的常住居民。
四、确定样本量
可通过公式法、查表法和估计法来确定样本量。本研究是对糖尿病的患病率进行调查,在估计样本量之前,必须明确一些参数:①预期现患率( p),可以通过查阅文献或者小规模的预调查得到,为了使样本量尽可能满足需要,查阅文献时可以选取其中较低的患病率;②对调查结果精确性的要求:即容许误差( d),容许误差越大,所需样本量就越小,一般采用 d=0.1× p;③要求的显著性水平( α): α越小,即显著性水平要求越高,样本量要求越大。在得到以上参数之后,我们可以根据以下样本量估计公式进行样本量的计算:

其中 p为预期患病率, q=1- pd为容许误差, Z α为显著性检验的统计量(α取0.05时, Z α为1.96,α取0.01时, Z α为2.58), n为样本量。根据查阅文献的结果, p取25.11%, d为0.1 p,α取0.05, Z α为1.96,得出所需样本量大约为1145人,本研究的设计效率deff取值为2,所以需2290人,考虑分层因素及失访率(15%),以及此患病率为15岁以上人群的患病率值(18岁以上人群占15岁以上人群的93.74%),推算大约共需调査15 133名18岁以上的成人。
若抽样调查的分析指标为计量资料,则应按计量资料的样本估计公式来计算,公式如下:

n为样本量, d为容许误差, s为总体标准差的估计值。从上述公式可看出,样本量大小与 s的平方成正比,与 d的平方成反比,故在实际应用中,若同时有几个数据可供参考时, s宜取大一点的值,这样不至于使估计的样本量( n)偏小。
另外,需要注意的是,本研究中采用的率的样本量计算公式仅适用于 n× p>5的情况,如果 n× p≤5则宜用Poisson分布的方法来估算样本量,可采用“Poisson分布期望值的可信限简表”进行样本量确定。
五、抽样方法
为了抽取一个有代表性的样本对整体进行推测,需要采用大规模流行病学调查中经常使用的方法,即多阶段抽样(multistage sampling),此抽样方法是将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用。其具体实施过程为:先从总体中抽取范围较大的单元,称为一级抽样单元(如省、自治区、直辖市),再从每个抽到的一级单元中抽取范围较小的二级单元(县、乡、镇、街道),依次类推,最后抽取其中范围更小的单元(如村、居委会)作为调查单位,对其符合条件的人群进行调查。多阶段抽样可以充分利用各种抽样方法的优势,克服各自的不足,并能节省人力、物力,但是在抽样之前要掌握各级调查单位的人口资料及特点。
根据以上多阶段抽样的规则,在掌握了该省的相关资料后,先将该省的140个县(市、区)作为初级抽样单元,并且根据其地理特征将其划分为3个地区类型。第1阶段抽样中,按照人口的比例情况,在3类地区中分别抽取5、8、7个县(市、区);第2阶段抽样中,在抽取到的这20个县(市、区)中,采用与人口容量成比例的概率(probability proportional to size,PPS)抽样方法抽取乡镇(街道);第3阶段抽样中,在抽取到的乡镇(街道)中再利用PPS抽样的方法抽取村(居委会);第4阶段抽样中,在抽取到的村(居委会)中,利用单纯随机抽样的方法抽取具体调查的对象。
知识点

常用随机抽样方法

1.单纯随机抽样 单纯随机抽样(simple random sampling)也称简单随机抽样,是最简单、最基本的抽样方法。从总体 N个对象中,利用抽签或其他随机方法(如随机数字)抽取 n个,构成一个样本。它的重要原则是总体中每个对象被抽到的概率相等(均为 n/ N)。主要用于总体不大的情形。
优、缺点:单纯随机抽样往往由于总体数量大,编号、抽样麻烦以及抽到个体分散而导致资料收集困难等原因实际应用的不多。但它是其他各种抽样方法的基础。
2.系统抽样 系统抽样(systematic sampling)又称机械抽样,是按一定顺序,机械地每隔若干单位抽取一个单位的抽样方法。具体抽样方法为:设总体单位数为 N,需要调查的样本数为 n,则抽样比为 n/ N,抽样间隔为K= N/ n、每K个单位为一组,然后用单纯随机方法在第一组中确定一个起始号,从此起始点开始,每隔K个单位抽取一个作为研究对象。主要用于按抽样顺序个体随机分布的情形。
优、缺点:优点:①可以在不知道总体单位数的情况下进行抽样;②在现场人群中较易进行;③样本是从分布在总体内部的各部分的单元中抽取的,分布比较均匀,代表性较好。缺点:假如总体各单位的分布有周期性,而抽取的间隔恰好与此周期或其倍数吻合,则可能使样本产生偏性。
3.分层抽样 分层抽样(stratified sampling)是指先将总体按照某个特征分为若干次级总体(层),然后再从每一层内进行单纯随进抽样,组成一个样本。分层抽样又分为两类,一类叫按比例分配(proportional allocation)分层随机抽样,即各层内抽样比例相同;另一类叫最优分配(optimum allocation)分层随机抽样,即各层抽样比例不同,内部变异小的层抽样比例小,内部变异大的层抽样比例大,此时获得的样本均数或样本率的方差最小。分层抽样主要用于群间差异较小的情形。
优点:分层可以提高总体指标估计值的精确度,它可以将一个内部变异很大的总体分成一些内部变异较小的层(次总体)。每一层内个体变异越小越好,层内变异则越大越好。分层抽样比单纯随机抽样所得到的结果精确度高,组织管理更方便,而且它能保证总体中每一层都有个体被抽到。这样除了能估计总体的参考值,还能分别估计各个层内的情况,因此分层抽样技术常被采用。
4.整群抽样 整群抽样(cluster sampling)是将总体分为若干群组,抽取其中部分群组作为观察单位组成样本。若被抽到的群组中的全部个体作为调查对象,称为单纯整群抽样(simple cluster sampling);若再通过再次抽样后调查部分个体,称为二阶段抽样(two stages sampling)。整群抽样主要用于层间差异较大的情形。
优点:①易于组织、实施方便,可节省人力、物力;②群间差异越小,抽取的群越多,则精确度越高。缺点:抽样误差较大,故通常在单纯随机抽样样本量估算的基础上再增加1/2。
六、资料的收集
根据研究目的来确定需要收集的资料,然后运用适当的方法进行收集,一般主要包括两种:①测定或检查,如血压的测定;②问卷调查,比如一般特征等。在资料收集的过程中要注意三点:①资料收集的方法确定下来之后,在整个科研过程都要前后一致,以避免研究资料的不同质性;②暴露(特征)的定义和疾病的标准均要明确和统一,比如本研究对糖尿病的检出定义;③所有参与检验或检测的人员以及调查员都必须经过统一培训,以统一调查和检测标准,避免测量偏倚的产生。
该研究主要收集的资料包括:调查对象的家庭一般情况、个人基本情况、生活行为方式、家庭饮食习惯、健康意识、疾病家族史等,这部分的内容采用问卷调查的方法进行收集;另外,还需要收集调查对象的身高、体重、腰围、臀围、血压和血糖等资料,这部分内容采用体格检查和实验室测定的方法进行收集。
七、资料的整理和分析
在资料收集后,首先要仔细的检查原始资料的完整性和准确性,填补缺、漏项,对重复的予以删除,对错误的予以纠正,然后采用各种数据录入软件对数据进行录入,如EpiData、Excel、Acess等。对资料进行分析时,先对疾病或健康状态按已明确规定好的标准进行归类、核实,然后可按不同空间、时间及人群中的分布(三间分布)进行描述,进一步的将人群分为暴露组和非暴露组或不同水平的暴露组,比较分析各组间疾病或健康状况发生率的差异,也可将人群分为患病组和非患病组,评价各因素(暴露)与疾病的联系,具体统计分析应该结合研究目的选择合适的方法。
本研究在资料收集后,首先要检查一些关键数据是否完整,比如血糖值、腰围值等,数据是否正确,比如是否存在不合常理的数值,对所有资料进行核查后,可选择其中一种数据录入软件对资料进行录入,并可利用逻辑核查和双录入的方法对数据进行检查,发现问题再进行处理。统计分析主要通过ROC曲线和约登指数来分析该省筛检糖尿病的BMI、WC和WHR的价值和最佳切割点。