Cloudera Hadoop大数据平台实战指南
上QQ阅读APP看书,第一时间看更新

1.4 大数据时代的关键技术

大数据时代的关键技术一般包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据可视化展现等。

(1)大数据采集技术

大数据采集是指通过对社交网络交互数据、移动互联网数据、RFID射频数据以及传感器数据的收集,获得各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据。大数据采集是大数据知识服务模型的根本。重点要突破分布式、高速、高可靠数据爬取等大数据采集技术。

(2)大数据预处理技术

大数据预处理技术主要完成对已接收数据的抽取、清洗等操作。因获取的数据可能具有多种结构和类型,数据抽取能帮助我们从各种异构的源数据源系统抽取到目的数据源系统需要的数据。大数据并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据进行过滤“去噪”,从而提取出有效数据。

(3)大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据存储管理技术。主要解决大数据的可存储、可靠性及有效传输等几个关键问题。可靠的分布式文件系统(DFS)是高效低成本的大数据存储技术。

(4)大数据分析及挖掘技术

大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。大数据挖掘根据挖掘方法可粗略地分为机器学习方法、统计方法、神经网络方法和数据库的多维数据分析方法等,它能够将隐藏于海量数据中的信息和知识挖掘出来。

(5)大数据可视化展现技术

大数据可视化无论对于普通用户或是数据分析专家都是最基本的功能。大数据可视化可以让数据自己说话,让用户直观地感受到结果,也可以让数据分析师根据图像化分析的结果做出一些前瞻性判断。