上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2.2 大数据系统的作用
大数据系统以处理海量数据存储、计算及不间断流数据实时计算等场景为主,能够为大数据技术研发和应用项目的实施提供高效完备的开发与运行环境,为业务提供数据洞察力,以解决各行各业面对的大数据分析和处理的问题。大数据系统主要包括Hadoop系列、Spark、Storm以及Flume/Kafka等,可以部署在私有云或公有云上。大数据系统具有以下功能:
(1)海量数据存储
大数据系统可以容纳PB级数据,支持结构化和非结构化数据,支持高效的数据查询、提取等操作。随着技术的发展,大数据系统不仅在性能上有所扩展,而且处理大量数据流的能力也得到相应提高。
(2)处理速度快
结合列式数据库和大规模并行处理技术,能够大幅提高数据处理性能,通常能够提高100~1000倍。
(3)离线分析和在线分析
Hadoop和Spark已成为大数据领域中的主流框架,其中,Hadoop为离线分析框架,Spark为在线分析框架,可以满足不同应用场景下对数据分析响应效率的需求。
(4)为数据科学家提供支持
数据科学家在企业数字化转型中拥有着更大的影响力,快速、高效、易于使用和广泛部署的大数据系统可以拉近商业人士和数据科学家之间的距离。
(5)提供数据分析和可视化功能
确保大数据系统不仅支持在数秒钟内准备并加载数据,还支持利用数据挖掘等算法建立模型,同时数据科学家能够使用现有统计软件包和首选语言。用户还可以通过可视化分析工具、可视化引擎等开展交互式可视化数据分析。