数据科学中的实用统计学(第2版)
上QQ阅读APP看书,第一时间看更新

1.2.1 数据框和索引

传统数据库表格会指定一列或多列作为索引,索引本质上是一个行编号,这样做可以大大提高特定数据库查询的效率。在 Python 中,如果使用 pandas 库,基本矩形数据结构就是 DataFrame 对象。默认情况下,会基于行的顺序为 DataFrame 自动创建一个整数索引。在 pandas 中,还可以设置多级别和多层次的索引,以提高特定操作的效率。

在 R 中,基本的矩形数据结构是 data.frame 对象,data.frame 也有一个基于行顺序的隐含整数索引。尽管通过 row.names 属性可以创建一个自定义的键,但 R 原生的 data.frame 还是不支持用户自定义索引或多级索引。为了克服这种缺陷,我们经常使用两个新的包:data.tabledplyr,它们都支持多级索引,在处理 data.frame 对象时,速度会显著提高。

 术语差异

矩形数据的术语会令人迷惑。统计学家和数据科学家对同一事物使用不同的术语。统计学家在模型中使用预测变量来预测一个响应因变量,数据科学家则使用特征来预测一个目标。还有一个词尤其令人迷惑:计算机科学家使用样本这个术语表示一个单行,而对统计学家来说,样本则意味着一个行的集合。