Python机器学习入门与实战
上QQ阅读APP看书,第一时间看更新

1.4 机器学习研究问题的一般步骤

对机器学习有了一些了解之后,还需要知道用机器学习来研究问题需要遵循什么样的步骤。

(1)收集数据,对数据进行处理。首先必须有数据,数据可以从网站上爬取,也可以从数据库中读取,还可以从一些文本文件或表格文件等文件中提取等。获取数据就需要学习一些机器学习相关工具模块的使用方法,同时还需要对数据进行空数据、异常数据及重复数据的处理,以保证数据的有效性。

(2)准备数据。得到处理的数据之后,还必须确保数据格式符合机器学习中数据的需求,如进行数据的归一化或者将数据由字符串转化成文本等操作。使用符合需求的数据格式可以融合算法和数据源,方便匹配操作。

(3)分析数据。此步骤的作用是观察数据的特点,以确定使用哪种机器学习算法。如某些数据点与数据集中的其他值存在明显的差异,这样就可能出现数据“不典型”的情况。通过图形展示数据也是不错的方法,这样方便观察数据并进行分析。另外,观察数据的特点,对之有一个总体的把握,也可以弄明白分析的问题到底是分类问题还是回归问题,是用监督学习算法好还是用非监督学习算法得当。在这一步中,也可以通过机器学习工具模块进行数据分析及图形展示。

(4)训练算法。机器学习算法从这一步才真正开始学习。算法不同,对最终机器学习测试结果的影响也是不同的。这一步是机器学习的核心,是将前面得到的格式化的数据输入算法中,从中抽取知识或有用的信息。

(5)测试算法。这一步是对训练算法得到的知识和信息的评估。算法的准确率是否高,必须进行测试。对于监督学习,必须评估算法的目标变量值;对于非监督学习,也必须检验算法的成功率是否达到预期的需求。无论哪种情形,如果不满意算法的输出结果,都要回到最初的步骤。如果算法输出结果正确率不高,可能是数据不典型,算法应用不得当,数据分析的特点没有做到位,等等,这些因素都可能存在。

(6)使用算法。将机器学习算法转换为应用,执行实际的预测任务,以检验训练成果是否可以在实际环境中正常工作。也就是判断如果碰到新的数据,预期的结果是否是真实情况的表达。