![Spark快速大数据分析(第2版)在线阅读](https://wfqqreader-1252317822.image.myqcloud.com/cover/833/41779833/b_41779833.jpg)
会员
Spark快速大数据分析(第2版)
(美)朱尔斯·S. 达米吉 布鲁克·韦尼希 丹尼·李 (印)泰瑟加塔·达斯更新时间:2021-12-06 11:52:01
最新章节:看完了开会员,本书免费读 >
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用SparkSQL进行交互式查询,掌握Spark应用的优化之道,用Spark和DeltaLake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark3.0引入的新特性。
品牌:人邮图书
译者:王道远
上架时间:2021-11-01 00:00:00
出版社:人民邮电出版社
本书数字版权由人邮图书提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
(美)朱尔斯·S. 达米吉 布鲁克·韦尼希 丹尼·李 (印)泰瑟加塔·达斯
主页
同类热门书
最新上架
- 会员
SQL Server从入门到精通(第5版)
《SQLServer从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQLServer开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQLServer数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中计算机14.1万字 - 会员
PySpark大数据分析与应用
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例计算机10.4万字 - 会员
数据指标体系:构建方法与应用实践
这是一套数据指标体系全流程构建(从规划、框架设计、数据采集加工到应用)方法论与实践指南。它不仅深入浅出地分享了通用的数据指标体系构建策略,还通过多个行业实例展示了具体操作方法。书中从数据采集入手,借助BI工具Superset实践构建过程。本着“一切技术都是为业务服务的”这一宗旨,本书除了包含数据指标体系构建相关内容外,还结合统计学原理及Excel、Python等工具,深入剖析数据指标波动对业务的影计算机12.7万字 - 会员
MySQL数据库实用教程
本书瞄准当前高校MySQL数据库教学与实验的需求,在MySQL8.0的基础上编写而成。全书分为两篇。第一篇为MySQL数据库基础,内容包含:数据库基础、MySQL语言、数据定义、数据操纵、数据查询、视图和索引、MySQL编程技术、MySQL安全管理、备份和恢复、事务管理、PHP和MySQL教学管理系统开发。第二篇为MySQL实验,所编排的各个实验与第一篇中的各章(除第10、11章外)内容相对应,计算机12万字 - 会员
企业级大数据项目实战:用户搜索行为分析系统从0到1
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发计算机9万字 - 会员
数字IC设计入门(微课视频版)
本书旨在向广大有志于投身芯片设计行业的人士及正在从事芯片设计的工程师普及芯片设计知识和工作方法,使其更加了解芯片行业的分工与动向。本书共分9个章节,从多角度透视芯片设计,特别是数字芯片设计的流程、工具、设计方法、仿真方法等环节。凭借作者多年业内经验,针对IC新人关心的诸多问题,为其提供了提升个人能力,选择职业方向的具体指导。本书第1章是对IC设计行业的整体概述,并解答了IC新人普遍关心的若干问题。计算机29.9万字 - 会员
深入理解InfluxDB:时序数据库详解与实践
时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着物联网技术在智能制造、交通、能源、智慧城市等领域的发展,时序数据库也发展迅速,成为搭建应用的必备数据库之一。《深入理解InfluxDB》从InfluxDB的安装开始,一步步详细介绍InfluxDB的功能及原理,带领读者深入理解以InfluxDB为代表的时序数据库。计算机7.6万字 - 会员
MySQL从入门到精通(第3版)
《MySQL从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了MySQL开发需要掌握的各方面技术。全书共分为4篇22章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,数据表操作,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务,事件,备份与恢计算机14万字 - 会员
数据科学技术:文本分析和知识图谱
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字
同类书籍最近更新
- 会员
改进的群智能算法及其应用
本书主要包括利用改进的卷积神经网络实现合成孔径雷达目标识别,提出了改进的群智能算法,并结合机器学习实现合成孔径雷达目标识别、MEMS矢量水听器信号的去噪估计、癌症分类、传染病预测、空气质量指数预测与等级分类、机器人转向分类和地质水水质分类。本书有较强的实用性和应用性,既结合实际应用的需要,又从理论上加以指导。本书可作为应用数学、信号处理、图像处理、优化算法、预测与分类等方向研究生学习,还可供从事机数据库11.6万字 - 会员
Oracle DBA手记4:数据安全警示录
本书是一本写给大家看的数据安全之书,不仅仅是给技术人员,更重要的是给企业数据管理者,如果不看这些案例,你也许永远不会理解数据库为何会遭遇到灭顶之灾,你也许永远无法理解为何千里之堤一朝溃于蚁穴。当然,这仍然是一本相当深入的技术书,作者将很多案例的详细拯救过程记录了下来,包括一些相当深入的技术探讨,这些技术探讨一方面可以帮助读者加深对于Oracle数据库技术的认知,另一方面又可以帮你在遇到类似案例时,数据库10.7万字 - 会员
左手MongoDB,右手Redis:从入门到商业实战
本书针对MongoDB和Redis这两个主流的NoSQL数据库编写,采用“理论实践”的形式编写,共计45个实例。数据库8.8万字 - 会员
SQL Server深入详解
MicrosoftSQLServer2005是新一代大型电子商务、数据分析和数据库解决方案,本书是创建SQLServer2005数据库和应用的一本参考书。通过这本书,读者可以学到如何进行SQLServer2005数据库的安装,如何进行数据库组件管理以及数据库的转换、备份等工作。同时,读者通过对MicrosoftSQLServer的实现语言-Transact-SQL的学习,可以进数据库14.4万字 - 会员
大数据用户行为画像分析实操指南
本书以帮助读者认识什么是用户行为画像,如何利用大数据采集、加工、分析用户行为从而应用到不同行业为主要目的。主要内容包括:用户行为数据的定义、内涵和外延、分类和应用场景;如何利用不同的采集工具收集和用户行为分析相关的行为大数据;用户行为分析常用的指标与模型;如何建立用户画像标签体系;用户画像如何支持大数据时代的个性化推荐和精准营销等应用;大数据用户分析在各行业的应用案例详解。本书的形式将以图文并茂的数据库10.9万字 - 会员
软件定义数据中心:Windows Server SDDC技术与实践
本书是国内首部讲解微软WindowsServer软件定义数据中心的中文图书,书中系统、全面地普及了微软WindowsServer软件定义数据中心各个模块的概念、技术和架构,书里凝结了作者近几年在使用WindowsServerSDDC的经验和对相关技术的思考。本书的主要内容包含WindowsServer软件定义的高可用群集、WindowsServerSDS、WindowsServerSDN和Wind数据库18.9万字