Kubeflow学习指南:生产级机器学习系统实现
上QQ阅读APP看书,第一时间看更新

1.5.2 数据准备与特征准备

机器学习算法需要良好的数据才能发挥作用,这往往需要特殊的工具来有效地提取、转换和加载数据。通常,需要对输入的数据进行过滤、归一化和准备,以便从原本无结构的嘈杂数据中提取有洞察力的特征。Kubeflow支持一些不同的工具:

·Apache Spark(最流行的大数据工具之一)

·TensorFlow Transform(与TensorFlow服务集成,便于推理)

这些不同的数据准备组件与数据探索环境完美结合,可以处理各种数据格式和数据大小[1]

Kubeflow Pipeline中对Apache Beam和Apache Flink的支持是一个活跃的开发领域。

[1] 要想实现这个功能,还需要做一些设置工作,详见第5章。