1.2.1 数据框和索引_数据科学中的实用统计学（第2版）-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.2.1　数据框和索引

传统数据库表格会指定一列或多列作为索引，索引本质上是一个行编号，这样做可以大大提高特定数据库查询的效率。在 Python 中，如果使用 pandas 库，基本矩形数据结构就是 DataFrame 对象。默认情况下，会基于行的顺序为 DataFrame 自动创建一个整数索引。在 pandas 中，还可以设置多级别和多层次的索引，以提高特定操作的效率。

在 R 中，基本的矩形数据结构是 data.frame 对象，data.frame 也有一个基于行顺序的隐含整数索引。尽管通过 row.names 属性可以创建一个自定义的键，但 R 原生的 data.frame 还是不支持用户自定义索引或多级索引。为了克服这种缺陷，我们经常使用两个新的包：data.table 和 dplyr，它们都支持多级索引，在处理 data.frame 对象时，速度会显著提高。

　术语差异

矩形数据的术语会令人迷惑。统计学家和数据科学家对同一事物使用不同的术语。统计学家在模型中使用预测变量来预测一个响应或因变量，数据科学家则使用特征来预测一个目标。还有一个词尤其令人迷惑：计算机科学家使用样本这个术语表示一个单行，而对统计学家来说，样本则意味着一个行的集合。