数据科学中的实用统计学(第2版)
上QQ阅读APP看书,第一时间看更新

1.2.2 非矩形数据结构

除了矩形数据之外,还有其他一些数据结构。

时间序列数据记录了对同一变量的一组连续测量,它是统计预测方法的原始材料,也是物联网设备所生成的数据的核心成分。

空间数据结构可用于地图和定位分析,相比于矩形数据,它更复杂,也更多变。在对象表示中,数据的重点在于对象(例如一间房屋)和它的空间坐标。相反,视图关注的则是空间的一个小单元以及某个相关度量的值(例如像素亮度)。

图(或网络)数据结构用于表示实际的、社会性的或抽象的关系。例如,像 Facebook 或 LinkedIn 这样的社交网络图可以表示出网络上人群之间的联系,与多条道路相连的集散中心则是实际网络的一个例子。图结构对于特定的问题类型是非常有用的,比如网络优化和推荐系统。

在数据科学中,以上每种数据类型都有独特的使用方法。本书重点介绍矩形数据,它是预测建模的基础构件。

 统计学中的图

在计算机科学和信息技术中,这个术语通常用来表示实体之间的联系,以及一种底层数据结构。在统计学中,用来表示各种统计图和可视化结果,而不是实体之间的联系;这个术语只用于可视化,不适用于数据结构。

 

本节要点

  • 数据科学中的基本数据结构是一个长方形矩阵,其中的行表示记录,列表示变量(特征)。
  • 数据科学中的术语非常令人迷惑。有很多同义词来自不同学科,这些学科(统计学、计算机科学和信息技术)都对数据科学贡献良多。