Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

4.1 分类分析

分类是数据挖掘技术中最具代表性的数据分析方法。分类是指通过构造模型(函数)来描述和区分各种类别或概念,用于对未来的预测,即基于已知的样本预测新样本的所属类型。

分类问题普遍存在于不同的应用场景中。例如,根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分类。最为经典的例子是根据鸢尾花的四个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)将鸢尾花分为三类不同的品种。

分类问题的解决依赖于分类模型,分类模型可用于以下目的。

·描述性建模:分类模型可以作为解释性的工具,用于区分不同类中的对象。

·预测性建模:分类模型还可以用于预测未知记录的类标号。

常用的分类算法包括朴素贝叶斯分类算法、逻辑回归算法、ID3决策树算法、C4.5决策树算法、C5.0决策树算法、支持向量机算法、K最近邻算法、人工神经网络算法等。