1.5.2 数据准备与特征准备_Kubeflow学习指南：生产级机器学习系统实现-QQ阅读男生中文科幻网

上QQ阅读APP看书，第一时间看更新

机器学习算法需要良好的数据才能发挥作用，这往往需要特殊的工具来有效地提取、转换和加载数据。通常，需要对输入的数据进行过滤、归一化和准备，以便从原本无结构的嘈杂数据中提取有洞察力的特征。Kubeflow支持一些不同的工具：

·Apache Spark（最流行的大数据工具之一）

·TensorFlow Transform（与TensorFlow服务集成，便于推理）

这些不同的数据准备组件与数据探索环境完美结合，可以处理各种数据格式和数据大小[1]。

Kubeflow Pipeline中对Apache Beam和Apache Flink的支持是一个活跃的开发领域。

[1] 要想实现这个功能，还需要做一些设置工作，详见第5章。