第一节 查重个案
SPSS可以实现对有重复记录的个案进行标识并删除重复的个案。比如在实际工作中,对同一个病例有多次随访记录,如果只需要第一次记录或者最后一次记录,这是就需要用到SPSS的个案查重功能。
一些慢性传染病(如结核病、艾滋病)和慢性非传染性疾病(高血压、糖尿病和肿瘤)以及医院病人就诊记录等都存在对病人的多次随访及检测记录,可以通过SPSS的标识重复个案功能查找发现重复个案或重复记录。以某个慢性传染病的随访记录进行举例说明。
1.首先,将这些随访记录通过外部数据导入方式转换为SPSS数据文件,如何导入数据上一章节已经讲解清楚。打开已经导入的SPSS数据文件,如图3-1所示。
2.然后,通过数据视图的窗口菜单项依次选择“数据—标识重复个案”,打开如图3-2所示界面,其中:
(1)定义匹配个案的依据:用于确定重复个案的关键变量。如果两个及两个以上的此变量相同为重复个案。
(2)在匹配组内的排序标准:对发现重复的个案,按照选入的某个变量值进行个案排序。
(3)排序:只有“在匹配组内的排序标准”选入了某个变量,才可以选择按照升序或降序排列。
(4)基于个案指标符:提供了两种选择,第一种是以排序后的组内重复个案的最后一个为基本个案,其他都作为多出的重复个案;第二种是以排序后的组内重复个案的第一个为基本个案,其他都作为多出的重复个案。什么意思呢,譬如某个“卡片ID”为“1111”的病例有10条随访记录,先按变量“卡片ID”和“随访日期”升序排序后,现以“卡片ID”为个案指示符,就是有10个同样的“卡片ID”号,这时,如果以第一种是以排序后的组内重复个案的最后一个为基本个案,其他都作为多出的重复个案,也就是第10次随访记录作为基本个案,之前9次的随访记录均为重复个案。
(5)根据指示符的值进行筛选:对于多余的重复个案,在数据库中打上删除标记。如图3-3所示,多余的重复个案被打上了删除标记。这些打了删除标记的个案将不参与后续统计分析,也不会从数据库中删除,这样保留原始数据的完整性。
(6)连续计算每个组合中的匹配个案:按照关键变量,如本例卡片ID,在每个卡片ID内根据排序后的重复个案数创建匹配顺序号从1到N,其变量名为“匹配顺序”。如图3-3所示,“−145 984”有8条相同卡片ID号,7个重复个案,1个主个案。
● 请注意,这个功能在实际工作中非常重要,对于每个个案重复次数不一致的情况,可以知道每个个案有多少条重复。
3.选择完毕后,按“确定”按钮,在结果输出窗口中给出操作结果。如表3-1显示主个案的频数和重复个案的频数;表3-2显示结果就是在这1000条有效记录里面,“0”表示没有重复的个案,有929个。
4.大家还记得否,前面第一章介绍过SPSS的语法程序运行方式。那么语法程序获得的一种方式就是在窗口菜单操作下,通过一系列窗口菜单操作后点击“粘贴”,就可以将这些操作步骤在语法窗口中以语法程序方式展示。以上的操作点击粘贴按钮后,在语法窗口中以语法程序显示,如图3-4。
5.在语法程序窗口,选择“运行—全部”后,出现结果如图3-4所示的结果。