1.3 大数据平台解决方案
目前很多企业都提供了大数据解决方案,典型有国外的Cloudera、Hortonworks、MapR等,国内的FusionInsight和Transwarp Data Hub等。
1.3.1 Cloudera
Hadoop生态系统中,Cloudera的规模最大、知名度最高,它既是公司的名字也代表Hadoop的一种解决方案。Cloudera可以为开源Hadoop提供支持,同时将数据处理框架延伸至一个全面的“企业数据中心”范畴,该数据中心可以作为管理企业所有数据的中心点,可以作为目标数据仓库、高效的数据平台或者现有数据仓库的ETL来源。
1.3.2 Hortonworks
Hortonworks数据管理解决方案使组织可以实施下一代现代化数据架构。Hortonworks是基于Apache Hadoop开发,可以从云的边缘以及内部来对数据资产进行管理。Hortonworks DPS用户可以轻松访问防火墙、公有云(或两者的组合)背后的可信数据。Hortonworks DataFlow(HDF)能够收集、组织、整理和传送来自于全联网(设备、传感器、点击流、日志文件等)的实时数据。Hortonworks Data Platform (HDP)能够用于创建安全的企业数据池,为企业提供信息分析,实现快速创新和实时深入了解业务动态。
2018年10月,Cloudera和Hortonworks公司宣布合并。
1.3.3 MapR
MapR是一个比现有Hadoop分布式文件系统还要快三倍的开源产品。MapR不仅配备了快照,还对外宣称不会出现单节点故障,并且与现有HDFS的API兼容,因此极易替换原有的系统。MapR使得Hadoop变为了一个速度更快、可靠性更高、管理更容易、使用更方便的分布式计算服务和存储平台,同时扩大了Hadoop的使用范围和方式。MapR包含了开源社区的许多流行工具和功能,比如HBase、Hive以及同Apache Hadoop兼容的API等。
1.3.4 FusionInsight
FusionInsight是华为提供的大数据平台解决方案,该解决方案包括4个子产品(HD、MPPDB、Miner、Farmer)和一个操作运维系统(Manager)。FusionInsight的架构图如图1-5所示。
图1-5 FusionInsight架构图
· FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。
· FusionInsight MPPDB:企业级的大规模并行处理关系型数据库,FusionInsight MPPDB采用MPP(Massive Parallel Processing,大规模并行处理)架构,支持行存储和列存储,提供PB(Petabyte,250字节)级别数据量的处理能力。
· FusionInsight Miner:企业级的数据分析平台,基于华为FusionInsight HD的分布式存储和并行计算技术,提供从海量的数据中挖掘出价值信息的平台。
· FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管理的平台。
· FusionInsight Manager:企业级大数据的操作运维系统,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、警告、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。
1.3.5 Transwarp Data Hub
Transwarp Data Hub(简称“TDH”)是星环信息科技(上海)有限公司提供的企业级一站式大数据综合平台,该平台是国内落地案例最多的一站式Hadoop发行版,性能比开源Hadoop 2.X还快数十倍。通过内存计算、高效索引、执行优化和高度容错等技术,TDH使得一个平台可以处理10GB~100PB的数据,并且企业不再需要MPP(Massively Parallel Processing,大规模并行处理)和混合架构。
TDH由Apache Hadoop的5款核心产品、大数据开发工具集Studio、安全管控平台Guardian和管理服务Manager构成。其中的5款核心产品分别为:
· Inceptor:用于批量处理及分析的数据库。
· Slipstream:实时流处理引擎。
· Hyperbase:NoSQL分布式数据库。
· Search:用于在企业内部构建大数据搜索引擎。
· Discover:分布式机器学习平台,专注于利用机器学习从数据中提取价值内容。
通过使用TDH,企业能够更有效地利用数据构建核心商业系统,加速商业创新。TDH的架构图如图1-6所示。
图1-6 Transwarp Data Hub架构图