上QQ阅读APP看书,第一时间看更新
第3章 大数据管理技术
当今社会,数据量呈爆炸性增长趋势,我们已经步入大数据时代。数据中蕴含着事物的走势和规律,能否对大数据进行充分分析和利用,已经成为企业之间竞争的关键因素。然而,大数据普遍存在数据量大、价值密度低的特点,给大数据分析工作带来极大挑战。大数据要求新一代的计算机技术与体系结构能够实现对海量多元数据进行实时存储处理。当前大数据管理的关键技术包括:以MapReduce为代表的分布式计算框架、分布式文件系统为代表的大规模网络存储储技术、NoSQL数据库为代表的海量数据管理技术以及Hive为代表的类关系型大数据仓库等[3],其研究目标为:构建一种能抓取、验证和分析海量数据的高效计算框架,评估来自多个数据源的结构与非结构混合数据,处理无显示模式与结构的不可预知内容,实现实时或近似实时的数据采集、分析和响应。然而,针对这些大数据管理技术的读写模式、处理能力、适用场景等特征,用户往往缺乏系统、全面的认识,导致在解决具体大数据问题时,往往根据经验选择管理技术,进而导致选取的管理技术与需求不匹配,不能发挥该管理技术及所依赖平台的最优处理性能。
本章从分布式计算框架、分布式文件系统、NoSQL数据库、大数据仓库四个层面,对大数据生态系统中几种主流大数据管理工具进行简要分析,重点对每一层面的技术进行较全面的对比,探讨各自的优势与不足,并分析其适用场景。