1.6 数据文件的操作
建立数据文件之后就可以进行统计分析了,而在分析过程中经常需要根据统计分析的目的对数据文件本身进行调整和操作,比如很多统计分析都需要对数据按照某项指标进行排序,或者对数据进行转置。本节将介绍在SPSS中一些常见的数据文件操作方法。
1.6.1 分类整理
将观测值按照统计分析的具体要求进行合理地分类整理是数据文件整理的重要工作,下面来介绍观测值分类整理的方法和步骤,还是以car_sales.sav数据文件为例。
01 选择“数据︱个案排序”命令,弹出“个案排序”对话框,如图1-38所示。在左侧变量框中选择一个或几个分类变量,单击按钮将其选入“排序依据”列表框中,其意义是将按照这个变量对观测值进行分类整理。分类整理是按每一个变量层叠分类整理。
图1-38 “排序个案”对话框
02 在“排列顺序”选项组中选择排序方式,如对某分类变量选择升序,则在“排序依据”选项组里该变量名之后用“--”线连接升序;如选择降序,则该变量名之后用“--”线连接降序,分类变量的排序方式可以不同。
03 以上选择确定后,单击“确定”按钮返回数据窗口,分类排序结果显示于数据窗口内。此外,对字符串变量进行排序,大写字母将优先于小写的同一字母。如果在我们引用的数据文件中本来有一个“序号”变量,它的值为自然数顺序,按照某些分类变量进行排序后,要将文件恢复到原来的顺序,则可以再用“序号”变量作为分类变量执行观测值分类。如果文件缺少这样一个变量,则经过分类的文件将不能恢复原状。SPSS的许多系统数据文件中都包含一个代表观测量序号的“id”变量,它可以起到这个作用。
1.6.2 数据转置
利用数据的转置功能可以将原数据文件中的行、列进行互换,将观测值转变为变量,将变量转变为观测值。转置的结果是系统将创建一个新的数据文件,并且自动建立新的变量名显示各新变量列。数据转置的步骤如下:
01 首先任意打开一个数据文件,例如打开car_sales.sav文件,选择“数据︱转置”命令,打开“转置”对话框,如图1-39所示。从左侧变量框中选择要进行转置的变量并将其选入“变量”列表框中。再从左侧变量框中选择一个变量,用它的值作为转置后的新变量名,一般选择具有相异观测值的变量。如果选择的是数值型变量,则转置后的变量名以字母V开头,后面接上原数值。需要指出的是,字符型变量不能进行转置。如果不选择变量移到“名称变量”文本框中,则系统将自动给转置后的新变量赋予Var001、Var002等类似变量名。
02 单击“确定”按钮,弹出如图1-40所示的“提示”对话框,提示用户“未选择转置某些变量。未转置的变量将丢失”。
图1-39 “转置”对话框
图1-40 “提示”对话框
03 单击“确定”按钮,随即转置后的新文件将取代原数据文件出现在数据窗口中。需要注意的是,如果将原变量列表中的全部变量都选择进行转置,则系统不会弹出该提示框。
1.6.3 数据合并
在实际处理数据的工作中,有时需要将两个结构相同或某些部分结构相同的数据文件合并成一个文件,比如将一个公司中两个部门的员工信息表合并为一个信息表,这时就需要对数据文件进行合并。SPSS中的数据合并分为两种:一种是观测值的合并(纵向合并),也就是将两个有相同变量但不同观测值的数据合并;另一种是变量的合并(横向合并),也就是将描述同一组观测样本的不同变量及其观测值合并为一个数据文件,新的数据文件包含所有合并前的各个数据的变量。
1.纵向合并
纵向合并将增加观测量,即把一个外部文件中与原文件具有相同变量的观测量增加到当前工作文件中。这种合并要求两个数据文件至少具有一个属性相同的变量,即使它们的变量名不同。“纵向合并”的操作方法与对话框的设置如下,仍以car_sales.sav数据文件为例。
01 选择“数据︱合并文件︱添加个案”命令,弹出“添加个案至car_sales.sav”对话框,如图1-41所示。
单击“浏览”按钮,弹出“添加个案:读取文件”对话框,如图1-42所示。
图1-41 “添加个案至car_sales.sav”对话框
图1-42 “添加个案:读取文件”对话框
选定数据文件(此处以SPSS 25.0自带的“accidents.sav”为例),选中后单击“打开”按钮返回到如图1-41所示的“添加个案至car_sales.sav”对话框,再单击“继续”按钮,弹出“添加个案自……”对话框,如图1-43所示。
图1-43 “添加个案自……”对话框
● “非成对变量”列表框:列出两个文件中的不成对变量,即变量名和变量类型不匹配的变量,其中用“*”标记的属于工作文件,用“+”标记的属于外部文件,带“<”者为字符型变量。
● “新的活动数据集中的变量”列表框:列出两个数据文件中变量名和变量类型都匹配的相同变量。
● “指示个案源变量”复选框:将在合并后的文件中建立—个名为“source0l”的变量,此变量仅有0和1两个值,分别标记观测量属于当前工作文件或外部文件。
02 两个数据文件的变量如果类型相同,变量名不同,则将两者同时选中,然后单击“配对”按钮,将它们移至“新的活动数据集中的变量”列表框中。
合并后的新文件变量列中二者的观测值被合并在一起。如果要为“非成对变量”列表框中的变量重命名,可选中它并单击“重命名”按钮,打开“重命名”对话框,输入新名称,单击“继续”按钮返回主对话框。
对“非成对变量”列表框中分属两个文件的变量配对时,要求二者必须具有相同的变量类型。变量宽度可以不同,但是属于工作文件的变量宽度应大于或等于外部文件中的变量宽度。若情况相反,则合并后外部文件被合并的观测量中相应的观测值可能不显示,而是在单元格里以若干“*”号加以标记。
03 如果要让变量名和类型变量均不匹配的变量出现在新数据文件中,则可以选中它,然后单击按钮将其移到“新的活动数据集中的变量”列表框中即可。设置完成后单击“确定”按钮,执行合并就可以得到合并后的数据文件了。需要注意的是,如果将“非成对变量”列表框中的分属两个文件的类型不同的变量配对,则在合并后的新文件里这两个变量都将不会出现。
2.横向合并
横向合并即增加变量,是指将一个外部文件中的若干变量添加到当前工作文件中。这种合并要求两个数据文件必须具有一个共同的关键变量,而且这两个文件中的关键变量还具有一定数量的相等的观测量数值。所谓关键变量,指的是两个数据文件中变量名、变量类型、变量值排序完全相同的变量。此处仍以SPSS 25.0自带的car_sales.sav数据文件为例,“横向合并”的操作步骤如下:
01 打开需要增加变量的数据文件car_sales.sav,选择“数据︱合并文件︱添加变量”命令,弹出“变量添加至car_sales.sav”对话框,如图1-44所示。
图1-44 “变量添加至car_sales.sav”对话框
单击“浏览”按钮,弹出“添加变量:读取文件”对话框,如图1-45所示。
图1-45 “添加变量:读取文件”对话框
选定数据文件(此处以SPSS 25.0自带的“car_insurance_claims.sav”为例),选中后单击“打开”按钮返回到“添加个案至car_sales.sav”对话框,再单击“继续”按钮,弹出“变量添加自……”对话框,如图1-46所示。
02 单击“变量”选项卡,在“排除的变量”列表框中,列出的是外部文件与工作文件中重复的同名变量;“包含的变量”列表框中,列出的是进入新的工作文件变量,分别用“+”和“*”来标记。根据需要设置完成后单击“确定”按钮,就可以将两个数据文件合并成一个新的数据文件了。
对话框选项设置/说明
如果两个文件含有相等的观测量,而且分类排序顺序一致,一一对应,则无需指定关键变量,直接单击OK按钮进行合并即可。
如果两个文件含有数目不等的观测量,而且分类排序顺序不一致或没有一一对应关系,则需在合并之前先对数据文件按关键变量进行升序排序,在“排除的变量”列表框中选择一个关键变量,移至“键变量”列表框中。
03 单击“合并方法”选项卡,如图1-47所示。
图1-46 “变量”选项卡
图1-47 “合并方法”选项卡
● “基于文件顺序的一对一合并”单选按钮:这是按关键变量匹配观测量的系统默认选项。表示按照“选择查找表”列表框中列示的顺序将两个数据文件的所有观测量合并。合并结果:凡关键变量值相等的合并为一个观测量,如果在对方文件找不到相等的关键变量值,就可以合并为一个独立的观测量,即在新文件中单独作为一个观测量(相当于增加一个观测量),而缺少的变量值作为缺失值。
● “基于键值的一对一合并”单选按钮:表示将非活动数据文件作为关键表,即只将外部数据文件中与活动数据集中对应变量值相同的观测量并入新的数据文件。
● “基于键值的一对多合并”单选按钮:表示合并后保留当前外部文件中的观测量,且只有当前工作文件中与外部文件关键变量值相等的观测量才被合并到新文件中。
04 以上选项确认后,单击“确定”按钮,提交系统运行。如果两个文件事先没有按关键变量进行升序排序,则合并可能会失败,系统将发出警告。