工业大数据分析算法实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.1 数据框的基本操作

数据框的基本操作包括:数据框创建、维度信息查看、排序、子集选择/查询、数据集修改、数据集统计/整合等单数据框操作,以及两个数据框的合并,见表2-1。详细的函数列表可以参阅R语言的dplyr包[1] 和Python Pandas[2] 的备忘清单(Cheat Sheet)。

这些操作函数是数据分析的基础,需要熟练灵活掌握。关于R语言和Python Pandas,已经有很多优秀的图书,例如《R语言实战》[3] 《R语言核心技术手册》[4] 《R数据科学》[5] 和《Python数据科学手册》[6] ,对于一些高级用法,可以参阅《高级R语言编程指南》[7] 和《R的极客理想:工具篇》[8]

表2-1 数据框的基本操作

除了base、stats等基础包外,R还提供了dplyr、tidyr、tidyverse、magrittr等包方便数据框的处理。具体函数本节不做重复性的介绍。但有些常用函数需要特别注意,例如,is.na研判NA数值、complete.cases用来判断每行记录数据是否完整、pmax常用来在矩阵求每行的多列的最大值、cumsum是向量的累积求和(可以用来算累积时长)。另外,各种apply函数简洁表达一些循环计算。reshape2包的melt、各种cast函数在一些数据框的处理中经常采用(例如ggplot2包画图时不同类别用不同颜色,通常在数据框中做加工)。