更新时间:2024-11-22 15:59:06
封面
版权页
O'Reilly Media Inc.介绍
本书赞誉
前言
第1章 大数据——超越喧嚣
1.1 什么是大数据
1.2 弹性数据基础设施的挑战
1.3 云计算基础
1.3.1 云计算术语
1.3.2 云的价值主张
1.4 云数据湖架构
1.4.1 本地数据仓库解决方案的限制
1.4.2 什么是云数据湖架构
1.4.3 云数据湖架构的优势
1.5 开启云数据湖之旅
1.6 总结
第2章 云上的大数据架构
2.1 为什么Klodars公司要迁移到云
2.2 云数据湖架构基础
2.2.1 浅谈数据的多样性
2.2.2 云数据湖存储
2.2.3 大数据分析引擎
2.2.4 云数据仓库
2.3 现代数据仓库架构
2.3.1 参考架构
2.3.2 现代数据仓库架构的用例
2.3.3 现代数据仓库架构的优势和挑战
2.4 数据湖仓一体架构
2.4.1 参考架构
2.4.2 数据湖仓一体架构的用例
2.4.3 数据湖仓一体架构的优势和挑战
2.4.4 数据仓库和非结构化数据
2.5 数据网格
2.5.1 参考架构
2.5.2 数据网格架构的用例
2.5.3 数据网格架构的优势和挑战
2.6 什么是适合的架构
2.6.1 了解客户
2.6.2 了解业务驱动因素
2.6.3 考虑增长和未来场景
2.6.4 设计注意事项
2.6.5 混合方法
2.7 总结
第3章 数据湖的设计注意事项
3.1 设置云数据湖基础设施
3.1.1 确定目标
3.1.2 规划架构和可交付成果
3.1.3 云数据湖实施
3.1.4 发布和运行
3.2 在数据湖中组织数据
3.2.1 数据生命中的一天
3.2.2 数据湖区
3.2.3 组织机制
3.3 数据治理简介
3.3.1 数据治理的参与者
3.3.2 数据分类
3.3.3 元数据管理、数据目录和数据共享
3.3.4 数据访问管理
3.3.5 数据质量和可观测性
3.3.6 Klodars公司的数据治理
3.3.7 数据治理总结
3.4 管理数据湖成本
3.4.1 揭秘云上的数据湖成本
3.4.2 数据湖成本策略
3.5 总结
第4章 可扩展的数据湖
4.1 可扩展性探秘
4.1.1 什么是可扩展性
4.1.2 日常生活中的规模
4.1.3 数据湖架构中的可扩展性
4.2 数据湖处理系统的内部
4.2.1 内部数据复制
4.2.2 内部ELT/ETL处理
4.2.3 关于其他交互式查询的说明
4.3 可扩展数据湖解决方案的注意事项
4.3.1 选择合适的云产品
4.3.2 峰值容量规划
4.3.3 数据格式和作业配置文件
4.4 总结
第5章 优化云数据湖架构以提高性能
5.1 度量性能的基础知识
5.1.1 性能的目标和指标
5.1.2 度量性能
5.1.3 优化以提高性能
5.2 云数据湖性能
5.2.1 SLA、SLO和SLI
5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI
5.3 性能驱动因素
5.3.1 复制作业的性能驱动因素
5.3.2 Spark作业的性能驱动因素
5.4 性能调优的优化原则和技术
5.4.1 数据格式
5.4.2 数据组织和分区
5.4.3 在Apache Spark上选择正确的配置
5.5 减少数据传输开销
5.6 优质产品和性能
5.6.1 大型虚拟机案例
5.6.2 闪存案例
5.7 总结