1.3 数据编辑器的基本操作
下载资源:\video\第1章\1.3
下载资源:\sample\数据1\数据1
SPSS可以直接输入数据,也可以从许多不同的数据源中导入数据,直接输入数据的方式就是使用数据编辑器。数据编辑器是SPSS的默认窗口,在该窗口中将会显示正在操作的数据文件的内容。数据编辑器分为两个视图:数据视图和变量视图。数据编辑器的数据视图如图1.22所示,其中每一行表示一个样本观测值,每一列表示一个变量。
图1.22 数据视图
数据编辑器的变量视图如图1.23所示,其中每一行表示一个变量,每一列表示变量的一个属性。
图1.23 变量视图
1.3.1 数据编辑器的变量视图操作
在使用数据编辑器建立或者修改数据文件时,一般是先在变量视图中建立相应的变量,变量的属性包括名称、类型、宽度、小数位数、标签、值、缺失、列、对齐、测量、角色。
1.名称
SPSS中变量命名的规则如下:
· 每个变量名称必须是唯一的,不允许重复。
· 不能超过64个字符。
· 首字符必须是字母、中文或特殊符号“@”“$”或“#”,后续字符可以是字母、数字、非标点字符和句点(.)的任意组合。
· 变量名中不能出现“?”“!”“.”“+”“=”“*”和空格。
· 应避免用句点结束变量名称,因为句点可能被解释为命令终止符。只能使用命令语法创建以句点结束的变量。不能在创建新变量的对话框中创建以句点结束的变量。
· 应避免使用下划线结束变量名称,这样的名称可能与命令和过程自动创建的变量名称冲突。
· 名称不能与SPSS的保留字(AND、BY、EQ、GE、GT、LT、NE、NOT、OR、TO、WITH和ALL)相同。
· 当长变量名称需要在输出中换行为多行时,会在下划线、句点和内容从小写变为大写的位置进行换行。
· 可以用任意混合的大小写字符来定义变量名称,大小写将为显示目的而保留。
2.类型
SPSS可以设置的变量类型共有9种,分别是数字、逗号、点、科学记数法、日期、美元、定制货币、字符串、受限数字(带有前导零的整数)。这9种变量类型又可以被归纳为3类,分别是数值型变量、日期型变量和字符型变量。
· 数值型包括标准数值型(数字)、逗号数值型(逗号)、圆点数值型(点)、科学记数型(科学记数法)、美元数值型(美元)、设定货币数值型(定制货币)、受限数值型(受限数字(带有前导零的整数))。
▷ 数值型(数字):值为数字的变量。
▷ 逗号数值型(逗号):变量值显示为每三位用逗号分隔,并用句点作为小数分隔符的数值变量。
▷ 圆点数值型(点):变量值显示为每三位用句点分隔,并带有逗号作为小数分隔符的数值变量。
▷ 科学记数型(科学记数法):变量以嵌入的E以及带符号的10次幂指数形式显示。
▷ 美元数值型(美元):显示时前面带美元符号($),每三位用逗号分隔,并用句点作为小数分隔符。
▷ 设定货币数值型(定制货币):值以自定义货币格式中的一种显示。
▷ 受限数值型(受限数字(带有前导零的整数)):值限于非负整数的变量。在显示值时,填充先导0以达到最大变量宽度。可以以科学记数法输入值。
· 日期型变量(日期)是用来表示日期或者时间的,值以若干种日历-日期或时钟-时间格式中的一种显示,主要在时间序列分析中使用。
· 字符型变量可以包含任何字符,可包含的最大字符数不超过定义的长度。字符串变量区分大小写字母,但不能进行数学运算。
以y1变量为例,在图1.24所示的变量视图中,单击变量“y1”行与“类型”列交叉单元格右侧的省略号 ,即可弹出如图1.25所示的“变量类型”对话框。在“变量类型”对话框中,用户可以设定变量的类型。
图1.24 变量视图
图1.25 “变量类型”对话框
3.宽度
SPSS中变量的宽度属性指在数据窗口中变量所占据的单元格的列宽度。
注意
用户在定义变量类型时指定的宽度和定义变量格式的宽度是有区别的。定义变量格式的宽度应当综合考虑变量宽度和变量名所占的宽度,一般取其较大的一个作为定义该变量格式宽度时可取的最小值。
4.标签
变量的标签属性是对变量名的附加说明。在许多情况下,SPSS中不超过8个字符的变量名,不足以表达变量的含义。利用变量标签就可以对变量的意义做进一步的解释和说明。特别是在Windows中文系统下还可以附加中文标签,这给不熟悉英文的用户带来很大方便。例如,定义变量名sale,可以加注标签“销售”。
给变量加了标签以后,在数据窗口操作时,当鼠标箭头指向一个变量的时候,变量名称下方就会立即显示出其标签,而且在进行统计分析数据结果时,呈现的是变量标签的结果。例如,针对前面变量名sale加注了标签“销售”,在进行描述性统计分析时,结果输出窗口显示的就是销售的结果,而非sale的结果。
5.值
变量的值属性是对变量的可能取值附加的进一步说明,通常仅对类型(或分类)变量的取值指定值标签。以y2变量为例,在图1.24所示的变量视图中,单击变量“y2”行与“值”列交叉单元格右侧的省略号 ,即可弹出如图1.26所示的“值标签”对话框。
比如针对y2变量,用1来表示男,2来表示女,就需要在“值”文本框中输入“1”,在“标签”文本框中输入“男”,然后单击“添加”按钮;再在“值”文本框中输入“2”,在“标签”文本框中输入“女”,然后单击“添加”按钮,即可完成对y2变量值标签的设置。
6.缺失
在很多情况下,我们整理的数据文件会出现错误,有的时候是因为工作失误,有的时候是数据突然出现了极端异常值。这些错误数据或者极端异常值数据可能会在很大程度上干扰我们的分析,使得最终拟合的数据模型有所失真。比如,在调查汽车的产量时,记录到某小型加工厂的平均日产为600万辆,如此高的产量显然是不符合基本常识的,所以这个数据应属于错误的数据,统计分析中使用了这样的数据必然导致错误的分析结果。以y2变量为例,在图1.24所示的变量视图中,单击变量“y2”行与“缺失值”列交叉单元格右侧的省略号 ,即可弹出如图1.27所示的“缺失值”对话框。
图1.26 “值标签”对话框
图1.27 “缺失值”对话框
“缺失值”对话框中共有3种处理方式供用户选择:
· 无缺失值。无缺失值是SPSS的默认状态,如果当前所有的数据值测试、记录完全正确,没有遗漏,则可选择此项。
· 离散缺失值。选择这种方式定义缺失值,可以在下面的3个文本框中输入3个可能出现在相应变量中的缺失值,也可以少于3个。如果用户选择了这种处理方式,那么当用户在进行统计分析时,系统遇到这几个值时,就会作为缺失值处理。比如对于季节变量,如果对季节变量进行了值标签操作,用1来表示春季,用2来表示夏季,用3来表示秋季,用4来表示冬季,那么出现除1、2、3、4之外的值就是不正确的,如果数据中出现了5、6、7,那么可以把5、6、7这3个值输入离散缺失值下面的3个文本框中,当数据文件中出现这几个数据时,系统将按缺失值处理,保证统计分析结果的准确性。
· 范围加上一个可选的离散缺失值。选择这种方式定义缺失值,除了“下限”和“上限”文本框外,还有一个“离散值”文本框,在这里可以一个设置范围以外的值。如果用户选择了这种处理方式,那么当用户在进行统计分析时,遇到下限和上限范围内的值,以及设置的范围以外的值,就都会作为缺失值处理。比如在统计学生体重数据时,在“下限”文本框中输入“80”,在“上限”文本框中输入“90”,在“离散值”文本框中输入“70”,那么学生体重数据处在[80,90]区间内以及体重为70时都会被认定为缺失值。
7.对齐
在SPSS数据视图中,变量值在单元格中的显示有“左”“右”“居中”3种选择,如图1.28所示。用户可以通过在“对齐”列中选择“左”“右”或者“居中”来自行决定对齐方式。一般情况下,默认数值型变量的对齐方式为右对齐,字符型变量的对齐方式为左对齐。
图1.28 “对齐”设置
8.测量
测量指的是变量的测量方式。变量的测量方式有3种,分别是“标度”“名义”“有序”,如图1.29所示。用户可以在“测量”列中选择“标度”“名义”或者“有序”来为变量指定合理的测量类型。
简单来说,“标度”表示的是连续变量,名义表示的是分类变量,有序表示的是具有顺序性质的分类变量。用户需要根据变量的实际特征来指定测量类型,比如针对学生的身高、体重等连续性变量,就应该将测量方式设置为“标度”;针对学生衣服的颜色变量,就可以考虑将测量方式设置为“名义”;针对银行的信贷资产(正常、关注、次级、可疑、损失),或者客户的满意程度(很满意、比较满意、基本满意、不满意、很不满意等),就可以考虑设置为“有序”。
此外,在任意一个SPSS对话框的变量表中右击一个变量,将弹出快捷菜单,如图1.30所示。
图1.29 “测量”设置
图1.30 变量右键快捷菜单
注意
该菜单中除了常见的“剪切”“复制”和“粘贴”之外,还有“变量信息”“描述统计”“网格字体”等。以“变量信息”为例,若选择这一项,则将弹出“变量信息”对话框,给出变量的详细信息,包括“名称”“标签”“类型”“缺失值”“测量”等,如图1.31所示。这些帮助信息有助于选择分析变量。
图1.31 “变量”对话框
1.3.2 数据编辑器的数据视图操作
当用户设定完变量后,可进入数据视图录入或者编辑样本观测值,或者针对样本观测值进行必要的加工等。
输入数据的操作方法是:单击选中的单元格被激活,边框加黑,单元格的颜色变为土黄色。二维表格的上方左侧显示选定单元格的观测值号和变量名。在单元格中输入的数据显示在右侧的编辑栏中。输入后按回车键或按向下移动光标键,输入同列下一个单元格的数据;按键盘上的上、下、左、右箭头则可实现向相应方向单元格的切换。
注意
输入单元格的变量值必须与事先定义的变量类型一致。如果变量为数值型,在单元格中输入字符串,系统将拒绝接受;如果变量为字符串,在单元格中输入数值,系统会将这个数字视为字符。
说明
并不一定先设定变量再录入数据。如果用户没有设定变量而是直接在数据视图中录入,那么SPSS会自动按照系统默认名称(VAR00001、VAR00002、VAR00003等)创建变量。这些自动创建变量的类型默认为“数字”,宽度默认为8,小数位数默认为2,标签默认无添加,值默认为“无”,缺失值默为“无”,对齐方式默认为“右”,测量方式默认为“未知”(需要用户进行选择),角色默认为“输入”,如图1.32所示。
图1.32 自动创建变量
用户也可以在数据视图界面录入完数据之后回到变量视图界面对默认变量进行编辑,修改各项属性使其符合研究要求,同样能达到创建数据文件的目的,如图1.33所示。
我们在整理数据资料的过程中,通常会发现数据存在遗漏、错误、不合理的重复值等情况,有时也会根据研究的需要和数据的变化增删新的变量或者数据。这时需要对数据文件进行编辑,针对需要增加的变量或者数据进行增加,针对需要删除的变量或者数据进行删除,针对需要更正的变量或者数据进行更正等。事实上,SPSS的界面非常友好,操作风格与Office办公软件、WPS办公软件等是一致的,用户如果能够熟练使用这些办公软件,就能够按照操作习惯熟练地对SPSS数据文件进行编辑操作。
图1.33 在变量视图界面对默认变量进行编辑