深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台
上QQ阅读APP看书,第一时间看更新

2.3.3 阿里云PAI

1.简介

阿里云机器学习PAI(Platform of Artificial Intelligence)是一款一站式的机器学习平台,包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务(见图2-11)。

图2-11 阿里云PAI工作流程图

2.面向大规模计算与多场景多业务的产品架构

PAI包含数据预处理、特征工程、机器学习算法等基本组件;所有算法组件全部脱胎于阿里巴巴集团内部成熟的算法体系,经受过PB级别业务数据的锤炼。阿里巴巴内部的搜索系统、推荐系统、蚂蚁金服等项目在进行数据挖掘时,都是依赖机器学习平台产品。如图2-12所示,PAI平台的业务十分广泛,支持多种计算框架。算法层不仅包含数据预处理、特征工程等基本算法,也涵盖各种机器学习算法、文本分析和关系网络分析等。

图2-12 阿里云PAI产品架构图

3.丰富的机器学习模块库

阿里云可以快速搭建数据预处理、特征工程、算法训练、模型预测和评估的整个链路,提供百余种机器学习算法组件,深耕深度学习计算架构,底层支持GPU分布式集群计算,功能可覆盖数据导入与处理、数据特征工程、机器学习深度学习、商品推荐、金融数据预测与风控、文本分析、统计分析、网络图分析等常见场景。

4.拖曳式可视化建模——PAI Studio

PAI提供了3种不同的模式:为新手设计的可视化PAI Studio模式、为高级使用者设计的PAI Notebook模式,以及专门针对生产部署的PAI EAS模式。

PAI Studio可视化模式允许客户通过拖曳组件的方式完成整个机器学习的流程(见图2-13),用户无须过多关注底层的代码和算法,简单使用与测试即可。

图2-13 阿里云PAI拖曳式组件

数据导入:首先将数据存入阿里云的MaxCompute系统中,接着就可以轻松导入数据。

数据预处理与建模全流程:全流程都可以通过拖曳完成,拖曳后简单设置一下相应的参数与属性即可。图2-14是一个简单的建模流程示例。

图2-14 阿里云PAI建模流程示例

5.工业级机器学习自动调参与部署服务

PAI提供了从模型自动调参到一键部署,再到线上的流式计算服务等一条龙的工业级模型部署方案;打通了从模型调参到部署的环节,通过自动化的手段大幅提高各个环节与阶段的生产效率。

PAI-AutoML支持几种调参方法,如自定义参数、网格搜索、随机搜索以及进化算法等,也支持不同情况下的调参需求。

PAI自动调参功能对于资深算法工程师以及入门者都有很大价值。针对入门用户,该类用户不清楚算法原理,因此无法高效调参,所以自动调参可以快速帮助这部分用户解决这个困扰。针对资深算法工程师,尽管其对于调参有一定经验,但是这种经验往往只能在大方向上指导调参,对于一些细节参数仍需要不断重复尝试,而自定义调参功能可以代替这部分重复性劳动。

在生成模型后,可以在PAI平台一键将模型发布成API服务。只要点击部署按钮,就会列出当前实验可部署的模型,选择需要的模型就可以一键完成部署,图2-15所示的是一个心脏病预测案例的模型在线部署示例。

图2-15 阿里云PAI模拟在线部署示例图