SPSS轻松学:实战案例
上QQ阅读APP看书,第一时间看更新

第三节 外部导入数据

在公共卫生和临床实践工作中,大量的数据是通过不同的软件进行数据录入并保存为不同的数据格式文件。譬如现场调查经常用到Epidata软件进行现场调查数据的录入;传染病病例报告数据通常是用Oracle数据库进行管理,导出的数据库是保存为CSV格式的数据文件,还有一些通过第三方在线数据管理平台收集数据,并保存为Excel格式的数据等。

不过不用担心,SPSS软件提供了多种不同数据格式文件的读取方式,同时,也提供了多种不同的数据格式文件的保存方式。

启动SPSS后,出现如图2-22所示数据编辑窗口。由于还没有输入数据,因此显示的是一个空文件。SPSS软件提供直接录入或外部数据导入两种方式至数据编辑窗口。数据编辑窗口直接录入数据的方法,在上一节内容进行了具体介绍。此处结合工作实际,主要介绍直接从外部数据库导入数据并转换成SPSS数据文件格式的方法。

图2-22 打开数据编辑窗口
一、从“.csv”格式文件中读取数据

在SPSS编辑窗口,通过菜单项依次选择“文件—打开—数据”,如图2-23所示;然后点击“数据”,出现寻找原始数据的查找范围,如图2-24所示。这是根据原始保存的数据在电脑中的路径进行选择,直至找到原始数据,点击该文件,如图2-24的“文件名”中显示。此时,请注意,根据原始数据的格式不同,在随后的打开该文件时,会出现不同的界面,所以需要在图2-24的“文件类型”中选择拟打开的文件类型。如果你不清楚拟打开的文件是什么类型,这时,在“文件类型”中选择“所有文件(*.*)”,这时打开的文件目录下的所有文件都会在文件框中显示。

图2-23 外部数据导入
图2-24 导入数据来源

1.首先,以日常工作经常使用的艾滋病病例报告数据为例,其数据来源是从艾滋病综合防治数据信息系统下载的病例报告数据库,文件格式是“.csv”形式。图2-24中的默认文件类型是SPSS数据文件类型(.sav),可以在文件类型右侧下拉箭头中选中“.csv”格式或选择“所有文件(*.*)”;同时,从查找范围中,找到病例报告数据库在电脑中的保存的路径。选中病例报告数据库“card.csv”,然后点击“打开”按钮,如图2-25所示界面。

图2-25 导入数据来源

2.然后点击“下一步”,如图2-26所示界面。在“您的文本文件与预定义的格式匹配吗?”选择“否”。

图2-26 数据导入过程

3.继续点击“下一步”,出现如图2-27所示界面。

图2-27 数据导入过程

(1)变量是如何排列的:csv格式的文件,是通过逗号作为变量值之间的分隔标识,所以默认“分隔”即可。

(2)变量名称是否包含在数据文件的顶部?选择“是”,在数据视图的窗口的顶部显示变量名称。

4.继续点击“下一步”,出现如图2-28所示界面。

图2-28 数据导入过程

(1)第一个数据个案从哪一行号开始?因为原始数据的第一行为变量名称,因此,导入数据选择从第2行号开始。

(2)您要导入多少个个案?这个就根据实际工作需要来选择导入多少个个案,一般默认全部导入。如果是想测试数据,可以选择导入一定比例的个案数据进行预分析。

(3)数据预览:可以通过拖动行和列滚动条进行拟导入数据预览。

5.继续点击“下一步”,出现如图2-29所示界面。变量之间有哪些分隔符:只选“逗号”,其他均不选。

图2-29 数据导入过程

6.继续点击“下一步”,出现如图2-30所示界面。拟导入变量的属性定义,如变量名称为“卡片ID”,需要定义其数据格式的类型。数据格式的类型在前面已经给大家具体讲过,根据该变量值的类型进行相应选择,本处将“卡片ID”定义为“字符串”,字符串的位数根据字符串的最长可能的位数进行选择。根据工作经验,卡片ID的变量值最长可以达到50位字符数,所以字符长度选择50。

图2-30 数据导入过程

(1)定义好第一个变量的属性后,光标点击数据预览的单元框中的第二个变量,如果该变量的数据格式与预期的一致,就不用更改,如果不一致就进行相应更改。如日期型变量,看默认的日期格式是否与预期的日期一致,不一致就需要更改。以此类推,直到完成所有拟导入的变量的更改。

(2)如果不想导入某个变量,只需要在数据预览的单元框中选中该变量,然后在数据格式中选择“不导入”即可。

7.继续点击“下一步”,出现如图2-31所示界面。

图2-31 数据导入过程

(1)您要保存此文件格式以备以后使用吗?如果选择“是”,它会另存为在一个文件夹中,下次如果需要再次导入数据,正如前面图2-26中提到“您的文本文件与预定义的格式匹配吗?”,选择“是”,就可以按照这个格式进行匹配。如果不需要,就选择“否”。

(2)您要粘贴该语法吗?这个就是把以上6个步骤的操作以语法程序粘贴到语法窗口,并可以保存,下次导入同样类型数据直接运行语法程序即可完成。另外,可以在语法程序中修改更新变量属性以及是否导入。

8.最后,点击“完成”按钮,即完成数据导入。

(1)如果最后选择如图2-31,在“您要粘贴该语法吗”选择“是”,会弹出语法窗口,如图2-32,将这6个步骤的操作作为语法程序展现。此时,在语法窗口,点击“运行—全部”,如图2-33,完成数据导入。

图2-32 数据导入语法程序
图2-33 数据导入语法程序

(2)如果最后选择如图2-31,在“您要粘贴该语法吗”选择“否”,直接完成数据导入,如图2-34所示。

图2-34 数据导入完成

9.保存SPSS数据文件 原始数据导入至SPSS数据视图中,数据视图中的数据可以保存为SPSS数据格式文件,也可以保存为其他数据格式文件,以便用其他数据分析软件可识别。

(1)通过点击“文件—保存”或者通过数据编辑窗口的快捷菜单保存按钮,出现如图2-35的界面。SPSS默认保存类型为SPSS数据文件(*.sav)格式。

图2-35 SPSS数据文件保存方式

(2)如果需要保存为其他类型的数据文件,在保存类型的下拉框中进行选择保存文件类型。如保存文件为SAS文件,可选择保存为SAS6.0到SAS9.0及以上版本类型,注意不同SAS版本,保存的文件类型不一样。其他如Stata、Excel等不同版本的保存文件类型的要求也不同。

(3)如果保存为其他类型文件,变量名和变量值的标签会丢失,如变量名会自动以V1、V2、V3……替代,这点需要提醒一下。变量值标签会以录入时原始输入替代。另外,缺失值的定义也会丢失。

二、从“Excel(*.xls)”格式文件中读取数据

跟前面操作一样,也是先在SPSS编辑窗口,通过菜单项依次选择“文件—打开—数据”,出现同前图2-23所示界面;然后点击“数据”,出现寻找原始数据的查找范围,出现同前图2-24所示界面。这时根据原始保存的数据在电脑中的路径进行选择,直至在找到原始数据,点击该文件,图2-24的“文件名”中显示。在图2-24的“文件类型”中选择拟打开的文件类型即“*.xls”格式,这时,在打开目录下文本框中显示所有后缀为*.xls的文件,选中拟读取的文件。

1.以一项专题调查的艾滋病阳转家庭调查数据为例,其数据来源是Epidata数据库中导出为“*.xls”的数据文件(注:从Epidata数据库中直接导出文件格式为*.xls即可)。从查找范围中找到艾滋病阳转家庭调查数据库在电脑中的保存的路径,通过目录路径找到该文件所在的文件夹,然后在文件类型中选择“Excel(*.xls,*.xlsx)”,该目录下包含此文件类型的文件会全部在文件框中显示,鼠标点击该文件,然后点击打开如图2-36。

图2-36 Excel格式数据文件导入

2.继续下一步,出现如图2-37界面,因为原始数据文件第一行是变量名,此处默认从第一行数据读取变量名。

图2-37 Excel格式数据文件导入

(1)单个工作表:默认从原始Excel数据库的sheet1中的第一行第一列到最后一行最后一列。

(2)范围:可以指定从原始Excel数据库中第几行第几列到第几行第几列。

(3)多个工作表:如果该原始Excel数据库有多个工作表,如sheet2、sheet3等。又想从sheet2中读取数据,此时就在工作表的下拉框中选择sheet2,如图2-38。然后可以通过SPSS软件数据库的合并来实现两个库的关联,将在下一章数据管理进行讲解。

图2-38 Excel格式数据文件导入

3.点击“确定”按钮,选中的数据就被读入到SPSS数据库中。如图2-39界面。

图2-39 Excel格式数据文件导入

在基层的日常工作中,以上几种主要的数据录入和导入方式完全可以满足基层工作人员工作需要。其他一些复杂的数据导入方式在此不再赘述。有兴趣的读者可以参考有关书籍。