精通Spark数据科学

(美)安德鲁·摩根 (英)安托万·阿门德大卫·乔治马修·哈利特

更新时间：2021-01-15 16:45:59

最新章节：14.6 小结

封面

版权信息

内容提要

译者序

译者简介

原书序言

作者简介

审稿人简介

前言

本书的主要内容

读者须知

本书的目标读者

本书的排版约定

资源与支持

配套资源

提交勘误

与我们联系

关于异步社区和异步图书

第1章数据科学生态系统

1.1 大数据生态系统简介

1.2 数据架构

1.3 数据处理技术

1.4 配套工具

1.5 小结

第2章数据获取

2.1 数据管道

2.2 内容登记

2.3 质量保证

2.4 小结

第3章输入格式与模式

3.1 结构化的生活是美好的生活

3.2 GDELT维度建模

3.3 加载数据

3.4 Avro

3.5 Apache Parquet

3.6 小结

第4章探索性数据分析

4.1 问题、原则与规划

4.2 准备工作

4.3 探索GDELT

4.4 小结

第5章利用Spark进行地理分析

5.1 GDELT和石油

5.2 制订行动计划

5.3 GeoMesa

5.4 计量油价

5.5 小结

第6章采集基于链接的外部数据

6.1 构建一个大规模的新闻扫描器

6.2 命名实体识别

6.3 GIS查询

6.4 名字除重

6.5 新闻索引仪表板

6.6 小结

第7章构建社区

7.1 构建一个人物图谱

7.2 使用Accumulo数据库

7.3 社区发现算法

7.4 GDELT数据集

7.5 小结

第8章构建推荐系统

8.1 不同的方法

8.2 信息不完整的数据

8.3 构建歌曲分析器

8.4 构建一个推荐系统

8.5 扩大“蛋糕厂”规模

8.6 小结

第9章新闻词典和实时标记系统

9.1 土耳其机器人

9.2 设计Spark Streaming应用

9.3 消费数据流

9.4 处理Twitter数据

9.5 获取HTML内容

9.6 使用Elasticsearch作为缓存层

9.7 分类数据

9.8 Twitter土耳其机器人

9.9 小结

第10章故事除重和变迁

10.1 检测近似重复

10.2 构建故事

10.3 故事变迁

10.4 小结

第11章情感分析中的异常检测

11.1 在Twitter上追踪美国大选

11.2 情感分析

11.3 使用Timely作为时间序列数据库

11.4 Twitter与戈德温（Godwin）点

11.5 进入检测讽刺的一小步

11.6 小结

第12章趋势演算

12.1 研究趋势

12.2 趋势演算算法

12.3 实际应用

12.4 小结

第13章数据保护

13.1 数据安全性

13.2 认证和授权

13.3 访问

13.4 加密

13.5 数据处置