2.1.1 数据框的基本操作_工业大数据分析算法实战-QQ阅读男频武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1.1 数据框的基本操作

数据框的基本操作包括：数据框创建、维度信息查看、排序、子集选择/查询、数据集修改、数据集统计/整合等单数据框操作，以及两个数据框的合并，见表2-1。详细的函数列表可以参阅R语言的dplyr包[1] 和Python Pandas[2] 的备忘清单（Cheat Sheet）。

这些操作函数是数据分析的基础，需要熟练灵活掌握。关于R语言和Python Pandas，已经有很多优秀的图书，例如《R语言实战》[3] 《R语言核心技术手册》[4] 《R数据科学》[5] 和《Python数据科学手册》[6] ，对于一些高级用法，可以参阅《高级R语言编程指南》[7] 和《R的极客理想：工具篇》[8] 。

表2-1 数据框的基本操作

除了base、stats等基础包外，R还提供了dplyr、tidyr、tidyverse、magrittr等包方便数据框的处理。具体函数本节不做重复性的介绍。但有些常用函数需要特别注意，例如，is.na研判NA数值、complete.cases用来判断每行记录数据是否完整、pmax常用来在矩阵求每行的多列的最大值、cumsum是向量的累积求和（可以用来算累积时长）。另外，各种apply函数简洁表达一些循环计算。reshape2包的melt、各种cast函数在一些数据框的处理中经常采用（例如ggplot2包画图时不同类别用不同颜色，通常在数据框中做加工）。