大数据分析与挖掘
上QQ阅读APP看书,第一时间看更新

1.1 大数据分析与挖掘简介

大数据研究机构高德纳(Gartner)将大数据(Big Data)定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据不仅意味着数据的大容量,还具有一些区别于海量数据(Mass Data)和非常大的数据(Very Large Data)的特点。

国际数据中心(IDC)也定义了大数据:“大数据技术描述了一个技术和体系的新时代,被设计用于从大规模、多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。这个定义刻画了大数据的4个显著特点,即容量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value),这个由“4V”描述的大数据定义使用最为广泛。

既然大数据是一种资产,人们自然希望从中挖掘出更多有价值的信息,因此大数据分析与挖掘越来越引起人们广泛的关注。

数据分析是用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论并对数据加以详细研究和概括总结的过程。在这个过程中,用户会有一个明确的目标,通过“数据清理、转换、建模、统计”等一系列复杂的操作,获得对数据的洞察,从而协助用户进行决策。数据分析可以分为三个层次,即描述分析、预测分析和规范分析。大数据分析是指对规模巨大的数据进行分析是从大数据到信息、再到知识的关键步骤。

数据挖掘(Data Mining)是指从数据集合中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息。提取出来的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。

在大数据的背景下,知识的获取与传统的学习方式有了很大不同。在很多情况下,只要数据足够多,不再需要通过具体问题的专业知识建模,就可以直接从数据中发现事先未知的知识。以对流感疫情的预测为例,在大数据时代之前,我们要根据数理统计的要求,通过对人群和医院的抽样调查获得数据,然后根据其抽样分布和经验模型来进行预测。谷歌公司则另辟蹊径,运用大数据分析的方法来展开预测。谷歌搜索引擎每天会执行超过数十亿次的搜索,公司从搜索记录中筛选出5000万条频繁词,然后与美国疾控中心公布的流感数据进行相关性分析,挖掘出高度相关的45种搜索词组合,构建流感预测的挖掘算法。在2007年~2008年,公司根据网民的搜索记录进行了准确的预测。由此可见,与数理统计相比,大数据分析不需要具备概率分布的先验知识,限制条件更少,更为灵活高效。