上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第二节 数据的预处理
数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
一、数据审核
即检查数据中是否有错误。
1.原始数据主要从完整性和准确性两个方面去审核
(1)完整性审核:主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等;
(2)准确性审核:主要是检查数据是否有错误,是否存在异常值等。
对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。
2.二手数据着重审核数据的适用性和时效性
(1)首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,不能盲目生搬硬套;
(2)对于一些时效性较强的问题,如果所取得的数据过于滞后,就可能失去研究的意义。
二、数据筛选
即根据需要找出符合特定条件的某类数据。数据筛选可借助计算机自动完成。
三、数据排序
数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
排序后的数值型数据称为顺序统计量。