实战大数据:分布式大数据分析处理系统开发与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.3 大数据的核心技术和计算模式

大数据有两大核心技术,一是分布式存储,二是分布式处理。分布式存储的代表产品有HDFS、HBase、NoSQL、NewSQL等;分布式处理的代表产品有MapReduce。

大数据的计算模式主要分为批处理计算、流计算、图计算和查询分析计算四种。其中,批处理计算主要针对大规模数据的批量处理,代表产品有MapReduce、Spark等;流计算主要应用于流数据的实时计算,代表产品有Storm、Spark Streaming、Flink DataStream等;图计算主要针对大规模图结构数据,代表产品有Graphx、Pregel、Giraph等;查询分析计算针对的是大规模数据的存储管理和查询分析,代表产品有Hive、Dremel、Cassandra等。