1.1 大数据概述
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》一书中,对于大数据,并不是使用随机分析法(抽样调查)这种捷径对抽样数据进行分析处理,而是对所有数据进行分析处理。
大数据的5V特点(IBM提出)如下:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
对于大数据,研究机构Gartner给出了如下定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义如下:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
1.大数据产生的原因
大多数的技术突破来源于实际的产品需要。大数据最初诞生于谷歌的搜索引擎中,随着Web 2.0时代的发展,互联网上的数据量呈现爆炸式的增长,为了满足信息搜索的需要,对大规模数据的存储提出了非常高的要求。
当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。可见,计算机科学与技术是从存储和计算能力视角来理解大数据的——大数据不仅仅是数据存量的问题,还与数据增量、复杂度和处理要求(如实时分析)有关。
大量信息带来的问题如下:
· 信息过量,难以消化。
· 信息真假难以辨识。
· 信息安全难以保证。
· 信息形式不一致,难以统一处理。
· 缺乏挖掘数据背后隐藏的知识的手段,导致“数据爆炸但知识贫乏”现象。
2.基本单位
在计算机存储中,最小的基本单位是bit,最大的是单位是DB;按从小到大的顺序给出所有单位如下:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的10次方)来计算,如图1-1所示。
图1-1 计算机存储单位
3.大数据技术
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。分布式架构的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。