上QQ阅读APP看书,第一时间看更新
1.2.1 数据框和索引
传统数据库表格会指定一列或多列作为索引,索引本质上是一个行编号,这样做可以大大提高特定数据库查询的效率。在 Python 中,如果使用 pandas
库,基本矩形数据结构就是 DataFrame
对象。默认情况下,会基于行的顺序为 DataFrame
自动创建一个整数索引。在 pandas
中,还可以设置多级别和多层次的索引,以提高特定操作的效率。
在 R 中,基本的矩形数据结构是 data.frame
对象,data.frame
也有一个基于行顺序的隐含整数索引。尽管通过 row.names
属性可以创建一个自定义的键,但 R 原生的 data.frame
还是不支持用户自定义索引或多级索引。为了克服这种缺陷,我们经常使用两个新的包:data.table
和 dplyr
,它们都支持多级索引,在处理 data.frame
对象时,速度会显著提高。
术语差异
矩形数据的术语会令人迷惑。统计学家和数据科学家对同一事物使用不同的术语。统计学家在模型中使用预测变量来预测一个响应或因变量,数据科学家则使用特征来预测一个目标。还有一个词尤其令人迷惑:计算机科学家使用样本这个术语表示一个单行,而对统计学家来说,样本则意味着一个行的集合。