上QQ阅读APP看书,第一时间看更新
1.2 矩形数据
在数据科学分析中,典型的引用框架是矩形数据对象,比如电子表格或数据库中的表。
矩形数据是一个通用术语,表示二维矩阵,其中行表示记录(事例),列表示特征(变量)。数据框是 R 和 Python 中矩形数据的一种具体形式。数据并不总是以这种形式开始的,非结构化数据(比如文本)必须经过一些处理,使得它们可以表示为矩形数据中的一组特征(参见 1.1 节)。对于多数数据分析和建模任务,关系数据库中的数据必须被提取出来并放到一个单独的表格中。
本节关键术语
数据框
矩形数据(比如一个电子表格)是统计模型和机器学习模型的基本数据结构。
特征
表格中的一列通常称为一个特征。
同义词
属性、输入、预测器、变量
结果
很多数据科学项目需要预测一个结果,通常是“是”或“否”(在表 1-1 中,就是“拍卖是否需要竞价”)。在实验或研究中,有时会使用特征来预测结果。
同义词
因变量、响应、目标、输出
记录
表格中的一行通常称为一条记录。
同义词
事例、示例、实例、观测、模式、样本
表1-1:一个典型的数据框格式
在表 1-1 中,既有测量数据或计数数据,如持续时间(Duration)和价格(Price),也有分类型数据,如类别(Category)和货币(Currency)。正如前面说过的,分类变量的一种特殊形式是二元变量(是/否或 0/1)。表 1-1 中最后一列就是二元变量,它是一个指示变量,表示拍卖是竞价的(有多个出价人)还是非竞价的。在预测拍卖是否竞价的情形中,这个指示变量恰好也是一个结果变量。