Spark 3.0大数据分析与挖掘:基于机器学习
上QQ阅读APP看书,第一时间看更新

1.2 大数据分析的要素

可以说,大数据时代最重要的技能是掌握对大数据的分析能力。只有通过对大数据的分析,提炼出其中所包含的有价值的内容才能够真正做到“为我所用”。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力才能通过“加工”实现数据的“增值”。

一般来说,大数据分析涉及5个要素,如图1-1所示。

图1-1 大数据分析的5个要素

1.有效的数据质量

任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。

2.优秀的分析引擎

对于大数据来说,数据的来源多种多样,特别是非结构化数据,其来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎用于从数据中提取我们所需要的信息。

3.合适的分析算法

采用合适的大数据分析算法,能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅要考虑能够处理的大数据数量,还要考虑对大数据处理的速度。

4.对未来的合理预测

数据分析的目的是对已有数据体现出来的规律进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来发展趋势的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。

5.数据结果的可视化

大数据的分析结果更多的是为决策者和普通用户提供决策支持和意见提示,其对较为深奥的数学含义不会太了解。因此,必然要求数据的可视化能够直观地反映出经过分析后得到的信息与内容,能够较为容易地被使用者所理解和接受。

可以说大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、半结构化和非结构化的数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的用户快速部署数据分析应用。