1.4.3 华为云的机器学习服务
华为公司开发的机器学习服务(Machine Learning Service,MLS)是一项数据挖掘分析平台服务,旨在帮助用户通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用生成预测结果。
华为机器学习服务可降低机器学习使用门槛,提供可视化的操作界面来编排机器学习模型的训练、评估和预测过程,无缝衔接数据分析和预测应用,降低机器学习模型的生命周期管理难度,为用户的数据挖掘分析业务提供易用、高效、高性能的平台服务。
机器学习服务常应用于以下海量数据挖掘的分析场景。
(1)市场分析
商场从顾客消费记录中找出某类顾客群的共有特征(如兴趣、收入水平和消费习惯等),分析出什么样的顾客购买什么产品,从而调整市场策略。
(2)定向推荐
银行从客户的个人财务状况信息中分析客户特征,定向推荐合适的产品(如贷款项目、理财产品等),以小代价获取大收益。
(3)欺骗检测
保险公司分析投保人的历史行为数据,建立欺骗行为模型,识别出假造事故骗取保险赔偿的投保人。
机器学习服务的算法概念指的是一系列规则和运算公式。将这些规则和运算公式作用到数据集上,能够得到一个分析结果,通常就是一个模型。模型保存着使用数据进行预测的方法,系统中的模型则按照PMML(Predictive Model Markup Language)格式存储管理。
用户可以在机器学习服务实例的工作界面训练模型,并通过“保存PMML模型文件”节点保存成通用的PMML格式。用户还可以通过机器学习服务的模型管理功能,对已发布的PMML模型进行管理。模型的管理包含如下的功能。
(1)模型构建,是指选择数据和算法,执行算法生成模型的过程。
(2)模型可视,是指将模型信息以图形化方式展示。
(3)模型评估,是指模型通过准确率、召回率等指标进行评价,并对这些指标进行求解。
(4)模型应用,是指将模型作用到一份数据上的各步骤作为计算任务,下发到系统中执行的过程。
(5)模型预测,是将已有的模型作用到数据上,针对每一条样本数据给出其对应结果的过程。
在机器学习服务中,数据分析是通过使用适当的统计方法、机器学习方法等,对收集的大量数据进行计算、分析、汇总和整理,以求最大化地开发数据价值,发挥数据作用。目的是将隐藏在一大批杂乱无章的数据背后的信息集中处理并进行提炼,从而得到研究对象的内在规律。
在机器学习服务中,数据挖掘是指从大量的数据中自动搜索隐藏于其中并有着特殊关系的信息的过程。可以通过统计、在线分析处理、情报检索、机器学习和模式识别等诸多方法来实现上述目标。
对于企业用户来说,华为云提供的机器学习服务具有非常好的交互界面,下面简单介绍机器学习服务丰富的可视化交互功能。
首先介绍各种功能节点,如表1-2所示。
表1-2 机器学习服务节点一览
【示例1-1】使用华为机器学习服务进行客户分群。
(1)问题描述
在数据挖掘应用中,客户分群是一项重要的商业应用。通过数据挖掘来给用户做科学的分群,依据不同分群的特点制定相应的策略,从而为用户提供适配的产品、制定针对性的营销活动和管理用户,最终提升产品的客户满意度,实现商业价值。
在本示例中,每个客户在不同类别产品(六种类别:生鲜类、奶制品、杂货、冷冻品、洗涤类和熟食类)上有各不相同的年进货开销。
批发商需要对所有的客户进行分群,按各客户的进货开销情况可分为以下三类。
① 大客户:大部分产品类别的年进货量都很大。
② 中客户:大部分产品类别的年进货量都居中。
③ 小客户:大部分产品类别的年进货量都很小。
(2)数据挖掘流程
在机器学习服务中,完成一个数据挖掘的基本流程如图1-1所示。
图1-1 数据挖掘基本流程
本例采用K-均值聚类方法,整个流程如图1-2所示。
图1-2 K-均值聚类流程
(3)输入
步骤1:单击项目“Customer”,进入此项目页面。
步骤2: 在此项目的“工作流”页签中,单击工作流“CustomerModel”的名称,进入“CustomerModel”工作流编排界面。
步骤3:将“输入”展开目录中的“读取HDFS文件”节点拖曳至画布中,单击该节点,在右侧参数配置区域按照表1-3所示配置参数。
表1-3 “读取HDFS文件”节点参数配置样例
(4)数据转换
步骤1:将“数据转换 > 字段操作”展开目录中的“修改元数据”节点拖曳至画布中,和“读取HDFS文件”节点连接,如图1-3所示。
图1-3 连接“修改元数据”节点
步骤2:单击“修改元数据”节点,在右侧参数配置区域按照表1-4所示配置“字段”和“角色”,其他参数保持默认。
表1-4 “修改元数据”节点参数配置样例
步骤3:将“数据转换 > 字段操作”展开目录中的“标准化”节点拖曳到画布中,与“修改元数据”节点连接。如图1-4所示。
图1-4 连接“标准化”节点
步骤4:选择“标准化”节点,对其所有的特征值进行归一化。按照表1-5所示配置参数。
表1-5 “标准化”节点参数配置样例
(5)建模
步骤1:将“建模 > 聚类”展开目录中的“K-均值”节点拖曳到画布中,和“标准化”节点连接,如图1-5所示。
图1-5 连接“K-均值”节点
步骤2:“单击“K-均值”节点,在右侧参数配置区域按照表1-6所示配置参数。
表1-6 “K-均值”节点参数配置样例
(6)评估
步骤1:将“评估”展开目录中的“模型应用”节点拖曳到画布中,将“K-均值”节点与“模型应用”节点相连接。如图1-6所示。
图1-6 连接“模型应用”节点
步骤2:单击“模型应用”节点,在右侧参数配置区域按照表1-7所示“模型应用”节点参数配置样例配置参数。
表1-7 “模型应用”节点参数配置样例
(7)输出
步骤1:将“数据转换 > 记录操作”展开目录中的“连接”节点拖曳到画布中,将“修改元数据”节点和“连接”节点连接。“修改元数据”节点的输出数据集设置为“连接”节点的左输入数据集,如图1-7所示。
图1-7 端口设置
步骤2:将“模型应用”节点和“连接”节点连接。“模型应用”节点的输出会自动作为“连接”节点的右输入数据集,如图1-8所示。
图1-8 连接“连接”节点
步骤3:单击“连接”节点,在右侧参数配置区域按照表1-8所示“连接”节点参数配置样例配置参数。
表1-8 “连接”节点参数配置样例
步骤4:将“输出”展开目录中的“保存HDFS文件”节点拖曳到画布中,将“连接”节点和“保存HDFS文件”节点连接,如图1-9所示。
图1-9 连接“保存HDFS文件”节点
步骤5:单击“保存HDFS文件”节点,在右侧参数配置区域按照表1-9所示“保存HDFS文件”节点参数配置样例配置参数。
表1-9 “保存HDFS文件”节点参数配置样例