主要内容
第1章,大数据与人工智能系统。本章为数据革命伊始人类智能和机器智能的融合提供背景。人们有能力去消费和处理以前不可能达到的数据量。本章将解释人们那些决定性的力量和行为如何影响生活质量,以及如何转化成机器世界。在深入了解人工智能的基础知识之前,本章将介绍大数据的范式及其核心属性。接下来,本章将提炼出“大数据框架”的概念,并研究如何利用它们在机器中构建智能。最后,本章将展示大数据和人工智能的一些令人兴奋的应用。
第2章,大数据本体论。本章会把数据的语义表示引入知识资产。如果想要实现人工智能,语义化和标准化的世界观是必不可少的。人工智能从数据中获取知识,利用上下文知识进行洞察并做出有意义的行动,以增强人类的能力。这种语义的世界观被表示为本体论。
第3章,从大数据中学习。本章展示机器学习的广泛分类,如监督学习和无监督学习,并介绍一些广泛使用的基本算法,最后概述Spark编程模型和Spark的机器学习库(Spark MLlib)。
第4章,大数据神经网络。本章介绍神经网络的相关内容,并探索它们如何随着分布式计算框架计算能力的提升而发展。神经网络从人脑中得到灵感,帮助人们解决一些非常复杂的问题,这些问题是传统数学模型无法解决的。
第5章,深度大数据分析。本章通过探索深度神经网络和深度学习的组件——梯度下降和反向传播,将人们对神经网络的理解提升到一个新的层次。本章将介绍如何构建数据准备管道、实现神经网络体系结构和超参数调优,并通过使用DL4J库的示例来探索用于深度神经网络的分布式计算。
第6章,自然语言处理。本章介绍自然语言处理(Natural Language Processing,NLP)的一些基本原理。当人们构建智能机器时,与机器的接口必须尽可能自然,就像日常的人类交互一样。NLP是实现这一目标的重要步骤之一。本章介绍文本预处理、从自然语言文本中提取相关特征的技术、自然语言处理技术的应用,以及使用自然语言处理实现情感分析。
第7章,模糊系统。本章提到,如果人们想要构建智能机器,一定程度的模糊性是必不可少的。在真实的场景中,虽然模型(如深度神经网络)需要实际的输入,但是它不能依赖精确的数学和定量输入来让系统工作。上下文信息的不完整、特征的随机性和对数据的忽略使得真实场景的许多特性被放大,不确定性更加频繁。人类的推理能力足以处理现实世界的这些属性。类似的模糊性对于构建能够真正补充人类能力的智能机器至关重要。本章还会介绍模糊逻辑的基本原理和它的数学表示,以及一些模糊系统的真实实现。
第8章,遗传编程。大数据挖掘工具需要借助高效的计算技术来提高效率。在数据挖掘上使用遗传算法可以创建具有强大健壮性、计算高效的自适应系统。事实上,随着数据呈指数级增长,数据分析将花费更多的时间,并反过来影响吞吐量。此外,由于它们的静态特性,复杂的隐藏模式常常被忽略。本章展示如何使用“基因”高效地挖掘数据,为此还将介绍遗传编程的基础知识和基本算法。
第9章,群体智能。本章分析使用群体智能解决大数据分析问题的潜力——结合群体智能和数据挖掘技术,可以更好地理解大数据分析问题,设计更有效的算法来解决现实世界中的这类问题。本章展示如何在大数据应用中使用这些算法,并介绍该领域的基本理论和一些编程框架。
第10章,强化学习。本章涵盖了作为机器学习范畴之一的强化学习。通过强化学习,智能代理根据它在特定环境中采取的行动所获得的奖励来学习正确的行为。本章介绍强化学习的基本原理、数学理论以及一些常用的强化学习技术。
第11章,网络安全。本章分析维生管线的网络安全问题。数据中心、数据库工厂和信息系统工厂不断受到攻击。在线分析可以检测这些潜在的攻击,以确保基础设施的安全。本章还将阐释安全信息和事件管理(Security Information and Event Management,SIEM)的概念,强调管理日志文件的重要性,并解释它们如何带来好处。本章还将介绍Splunk和ArcSight ESM系统。
第12章,认知计算。本章把认知计算作为人工智能发展的下一个层次。通过利用人类的5种主要感官和大脑作为第六感,认知系统的新时代开始了。本章展示人工智能的各个阶段,展示它朝着强人工智能发展的自然进程,以及实现它的关键推动者。大数据在分布式计算框架中带来了巨大的数据量和处理能力,本章会介绍认知系统的历史,回顾认知系统是如何随着大数据的出现加速发展的。