并行数据挖掘及性能优化:关联规则与数据相关性分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一篇 基础理论篇

大数据时代信息技术领域的巨大变革深刻影响了社会生产和人民生活的方方面面,各行各业迅猛发展,各领域呈现出新产品、新技术、新服务和新的发展业态。大数据的战略意义不在于拥有庞大的数据资源,而在于通过“加工”数据实现数据的“增值”。数据挖掘是实现大数据知识发现的有效手段和途径,利用数据挖掘技术能够深层次地探寻大数据背后的价值。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,能够有效发现大量数据项集之间“有趣的”关联信息。然而,数据的爆炸性增长,动辄达到数百TB、PB甚至EB级的规模,再加之数据类型复杂、高维等数据特征,使得挖掘如此大规模的数据集需要巨大的计算资源,这已远远超出了现有的计算技术和信息系统的处理能力。于是在很大程度上,高性能的并行计算、分布式计算和集群系统的应用就成为解决该问题行之有效的手段。

本篇共包括两章内容(第1、2章)。第1章介绍了数据挖掘、关联规则、集群系统与并行计算模型及大数据的相关概念、理论基础及应用;第2章对在并行计算和分布式计算领域得到广泛且成功应用的MapReduce编程模型的数据放置策略进行了深入分析,并探讨了MapReduce集群环境下数据放置策略的研究现状及研究热点。