工业大数据分析算法实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 数据操作基础

数据框(Data Frame)是机器学习中用得最多的一种数据结构,数据框由多行多列组成,每列是同一种数据类型,但不同列的数据类型可以不同(与矩阵类型的区别),类似JDBC编程中数据集对象RecordSet。机器学习很多算法和数据预处理函数都是围绕Data Frame展开,R语言和Python Pandas有深入的支持,就如同MATLAB等科学计算软件以向量/矩阵为中心。在R语言中,既支持向量、矩阵、字符串、列表(List)等常见数据类型,也提供了因子(Factor)数据类型,解决名义变量(例如性别)和有序变量(例如报警等级)在机器学习中的特别处理要求,例如,因子量不能像连续变量那样参与四则运算,在存储效率上Factor比原始的变量类型(特别是字符串)更高。