Spark MLlib机器学习实践(第2版)
上QQ阅读APP看书,第一时间看更新

1.2 大数据分析时代

随着“大数据时代”的到来,掌握一定的知识和技能,能够对大数据信息进行锤炼和提取越来越受到更多的数据分析人员所器重。可以说,大数据时代最重要的技能是掌握对大数据的分析能力。只有通过对大数据的分析,提炼出其中所包含的有价值内容才能够真正做到为我所用。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。

一般来说,大数据分析需要涉及以下5个方面,如图1-1所示。

图1-1 大数据分析的5个方面

1. 有效的数据质量

任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。

2. 优秀的分析引擎

对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。

3. 合适的分析算法

采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要考虑能够处理的大数据的数量,还要考虑到对大数据处理的速度。

4. 对未来的合理预测

数据分析的目的是对已有数据体现出来的规律进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来发展趋势的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。

5. 数据结果的可视化

大数据的分析结果更多是为决策者和普通用户提供决策支持和意见提示,其对较为深奥的数学含义不会太了解。因此必然要求数据的可视化能够直观地反映出经过分析后得到的信息与内容,能够较为容易地被使用者所理解和接受。

因此可以说,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、半结构化和非结构化的数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的用户快速部署数据分析应用。