1.2 分析概念_数据分析即未来：企业全生命周期数据分析应用之道-QQ阅读轻小说男生网

上QQ阅读APP看书，第一时间看更新

1.2　分析概念

分析概念可以看作是抽象的概念，也可以是一般的概念。我们将概念与实现区分开来，以突出这样一个事实，即在实现它的时候，会呈现出不同的表现方式。例如，人工智能的概念可以在自动驾驶汽车、聊天机器人或推荐引擎中看到。这些具体的实现实质上是人工智能这个概念在当前的不同呈现方式。

在下一节中，我将概述我对商业智能、报表、大数据、数据科学、边缘分析、信息学以及人工智能和认知计算这些基本概念的理解。

1.2.1　商业智能和报表

关于分析与商业智能的区别，几乎没有形成过共识。有些人将分析归类为商业智能的一个子集，而另一些人则把它归为完全不同的类别。我在2010年写了一篇论文（Nelson，2010），在那篇论文中我把商业智能（BI）定义为“一种管理策略，用来建立一种更有结构性和更有效的决策方法……BI包括报表、查询、联机分析处理（OLAP）、仪表盘、记分卡甚至分析等常见要素。综合性术语BI也可以指获取、清理、集成和存储数据的过程”。

有些人会将分析和商业智能之间的区别归纳为两个方面的不同：（1）所使用量化方法（即算法、数学、统计）的复杂度；（2）所产生结果是针对历史已发生的还是未来将发生的。也就是说，商业智能的重点是使用相对简单的数学方法来对历史数据进行展示和呈现，而分析则被认为是采用更复杂的计算逻辑，并且能够预测一些特定问题、识别因果关系、确定最优解决方案的方法，有时也被用于指明需要采取的行动与措施。

大多数商业智能应用的局限性并不在于技术的限制，而在于分析的深度和为行动提供依据的真正洞察力。例如，告诉我已经发生了什么事情并不能帮助我决定如何行动以改变未来，这样的结果往往是通过离线分析（offline analysis）得到的。分析的真正责任是形成可行动的、可操作的洞察力，从而能够帮助我们了解已经发生的事情（在什么地点发生，为什么会发生，在什么条件下发生），预测出未来可能发生什么，以及我们可以做什么来影响和优化未来的结果。

请注意，图1-1中描述的BI仪表盘描述了有关过去的事实，如销售、呼叫量、产品和账户，使你很容易获得组织当前销售状态或活动情况的快照。

商业智能和它的近邻“报表”，都是用来描述有关现象的信息展示技术，通常位于数据传递管道的尾部，在那里可以直观地访问数据和结果。而另一方面，分析则超越了对数据的描述，它真正理解了这个现象的内在规律，从而来预测、优化和预判未来应采取的适当行动。

从传统上看，商业智能一直存在两个缺点，这源于它们与这样的事实有关：（1）BI通常专注于建立对过去已经发生事实的认识，因为它侧重于度量和监视，而不是预测和优化；（2）其计量分析往往不够复杂，无法建立足以产生精确洞察力的有意义的改变（虽然正确的报表或可视化展现也可以对改变产生影响，但还不够精确）。

图1-1　商业智能仪表盘

来源：QlikTech International AB。经许可转载

如果把商业智能与深入的“分析”恰当地结合在一起，而不仅仅停留在对事实的认识，它就更接近分析，但它又往往缺乏高级分析解决方案中经常用到的复杂统计、数学或者“机器学习”方法。

因此，我认为分析是商业智能总体框架内所包含的概念的一种自然演变。它更加强调充分开展必要的各种活动，以形成能促进行动的真知灼见。分析远远不止于在自助操作仪表盘或报表界面中所使用的、预先定义的可视化元素。

1.2.2　大数据

大数据（big data）是一种描述不和谐信息的方法，在将数据转化为洞察力的过程中，组织必须处理这些难以处理的信息。1997年，Michael Cox和David Ellsworth首次使用了大数据这一表述（Cox，1997），他们当时提到的“问题”如下：

可视化为计算机系统提供了一个有趣的挑战：数据集通常相当大，占用了大量主内存、本地磁盘甚至远程磁盘的容量。我们称之为大数据问题。当数据集大到无法存放在主内存（核心存储器），或者甚至无法存储在本地磁盘上时，最常见的解决方案是扩充并获取更多的资源。

将大数据视为一个概念，它突出了这样一种挑战：数据的规模和复杂性超出了传统数据分析方法能够处理的范围。我们将大数据与传统的“小”数据进行对比，包括其容量（我们拥有多少数据）、速度（产生与获得数据的快慢）和多样性（包括数字、文本、图像、视频等多种数据形态）^[1]。

如果大数据是用来描述当今信息复杂性的概念，那么分析就可以帮助我们以主动的方式（预测性和规范性）来分析复杂性，而不是以被动的方式（即商业智能的范畴）来应对。

[1] 大数据的三个V（即原文中所说的Volume、Velocity和Variety），已经进一步发展成5个V，即在原来的基础上又增加了Veracity（准确性或可信度）和Value（价值）。

1.2.3　数据科学

与大数据相比，定义数据科学显得不是一件轻而易举的工作，因为在数据科学的众多定义中，很少发现一致的描述。关于数据科学意味着什么，以及它是否与分析完全不同，目前存在很多争论。还有一些人，甚至试图通过讨论数据科学家的工作来定义数据科学：数据科学家所需要的技能，他们所扮演的角色，他们所使用的工具和技术，他们工作的地方，以及他们的教育背景，等等。但这些并没有对数据科学给出一个有意义的定义。

与其按照人（数据科学家）或他们所处理的问题来定义数据科学，不如将其定义如下：

数据科学是一门科学学科，它利用统计和数学等领域的定量方法以及现代技术，开发出用于发现模式、预测结果和为复杂问题找到最佳解决方案的算法。

数据科学和分析的区别在于，数据科学可以帮助甚至支持自动化实现对数据的分析，但是分析是一种以人为中心的策略，它充分利用各种工具，包括那些在数据科学中发现的工具，来理解事物现象之间的真正本质。

数据科学可能是这些概念中涉及面最广泛的，因为它关系到处理“数据”的整个科学和实践。我认为数据科学是由计算机科学家设计的分析学，但在实践中，数据科学往往侧重于对一般性宏观问题的研究，而分析往往侧重于解决特定行业或具体问题的挑战。在第10章中，我通过定义数据科学和分析之间的关系来扩展这一概念，将数据科学作为分析的工具和赋能手段。

1.2.4　边缘（和环境）分析

在很多现代企业，分析是它们的一种核心业务活动，这些企业通过数据驱动和以人为中心的业务运营与管理流程实现了数据的大众化（democratize data）。而边缘分析（edge analytics）一般指的是分布式分析，在这种场景下，分析被内置到一些机器或系统中，通过这种内置的方式，信息的生成与收集已经成为企业“下意识”的自主活动。

边缘分析通常与智能设备相关，这种情况下，分析计算是在数据收集点（例如设备、传感器、网络交换机或其他设备）开展的，与传统的数据管道传输方式（即采集数据、传输数据、清洗数据、集成数据、存储数据）不同，边缘分析把分析嵌入到收集数据的设备中完成或就近实现。

数据大众化

所谓数据大众化，指的是数据开放，使每个能够而且应该能够获得数据的人都有权通过工具来探索获取这些数据，而不是将数据局限于少数特权群体。

例如，传统的信用卡欺诈检测依赖于机器（例如读卡器），并通过与授权“代理”的连接发送请求来验证一个交易，算法需要在极短的时间内（百分之一毫秒）对此交易完成授权或打上欺诈标签，最后，读卡设备接收授权指令后完成或拒绝交易操作。在边缘分析中，算法将运行在仪器本身上（比如带有嵌入式分析的智能芯片读卡器）。

边缘分析通常与物联网（IoT）联系在一起。最近IDC在针对物联网IoT未来视界（FutureScape）的一份报告中提出，到2018年，40%的物联网数据将在网络中产生数据的边缘完成数据的存储、处理、分析和响应（Marr，2016）。随着物联网的发展，我们很可能会看到未来对所谓的“万物分析”（Analytics of Things，AoT）有更多的关注，它指的是分析将给物联网数据带来独特价值的机会。

环境分析（ambient analytics）是另一个相关的术语，它的名字意味着“分析无处不在”。就像房间的灯光或音响常常不被注意，但却为舞台构建了氛围一样，环境分析也会影响我们工作和娱乐的环境。我们看到环境智能正在日常生活场景中发挥作用，比如检测血糖水平和注射胰岛素。同样，当你回到住家附近时，家居自动化设备检测到相应信息，会自动调整温度和打开照明。环境分析超越了基于简单规则的决策，它利用算法来决定合适的行动路线。

毫无疑问，边缘和环境分析将继续挑战传统的以人为中心的管理方式与流程，传统管理方式下，使用分析结果（如对分析的理解、决策和采取的行动）以人为主，而在边缘和环境分析中会有越来越多的（不需要人工介入的）自主决策与执行。

1.2.5　信息学

信息学（informatics）是信息技术和信息管理的交叉学科。在实践中，信息学涉及用于数据存储和检索的处理技术。从本质上讲，信息学讨论信息是如何管理的，指的是支持流程化工作流的系统和数据生态系统，而不是对其中发现的数据进行分析。

在信息科学中经常谈到的健康信息学，它专门用于保健医疗研究，是介于健康信息技术和健康信息管理之间的一种专业技术，它将信息技术、通信和保健融合起来，以提高病人护理的质量和安全性。它位于人、信息和技术三者交汇处的中心。

保健政策是指在一个社会中为实现特定的保健目标而采取的决定、计划和行动。保健政策制定者希望看到医疗保健变得更经济、更安全、更高质量，信息技术和健康信息技术往往是实现这一目标的重要手段。事实上，其中一项最必不可少的工作是正确定位数据资源，使之能提供每个患者360度的完整健康状况信息视图，只有数据共享才能做到这一点（见图1-2）。

分析集成了所有这些概念，并依赖于底层数据、支持技术和信息管理过程来实现这一目标。

1.2.6　人工智能与认知计算

人工智能（AI）是一门“让计算机做需要人类智能才能做的事情的科学”（Copeland，2000）。

人工智能和机器学习的区别在于，人工智能是指利用计算机完成模式的识别与探索这类“智能”工作的广义概念，而机器学习是人工智能的子集，它主要指利用计算机从数据中学习的概念。

图1-2　健康信息管理、健康信息技术和信息学之间的区别

机器学习是人工智能的一个子集，它可以根据数据进行学习和预测，不是仅仅根据特定的一组规则或指令完成事先规划好的操作，而是利用算法训练来自主识别大量数据中的模式。

人工智能（和机器学习）可以在分析生命周期中使用，以支持发现和探索（例如，数据是如何构造的，存在什么模式等）。人工智能在分析中的应用通常以机器学习（如上文所述）或认知计算的形式出现。

认知计算是一种独特的应用，它将人工智能和机器学习算法结合在一起，试图复制（或模仿）人脑的行为（Feldman，2017）。

认知计算系统被设计为像人一样通过思考、推理和记忆等方式来解决问题。这种设计方法使认知计算系统具有一个优势，使得它们能够“随着新数据的到来而学习和适应”并“探索和发现那些你永远不会知道去问的东西”（Saffron Technologies，2017）。认知计算的优势在于，一旦它学会了某种能力，它就永远不会忘记，而人类往往做不到这一点。

在人与算法的竞争中，不幸的是，人类常常输掉。人工智能的优势就在于此。因此，如果我们要成为聪明的人，就必须学会谦逊，因为在计算机世界里，我们的直觉判断可能还不如依靠一组简单规则实现的算法。

——Farnham Street博客（Parish，2017，Do Algorithms，在复杂的决策中算法能击败我们吗？）

在狭义的术语中，人工智能代表人类智慧，而认知计算则提供信息来帮助人们做出决策。

拓展学习

想要了解更多关于AI和认知计算的不同，请阅读Steve Hoffenberg写的参考文章（Hoffenberg,2016）。

本周热推：

Unreal Engine Virtual Reality Quick Start Guide Hands-On Java Deep Learning for Computer Vision iOS 5 Essentials R Machine Learning Essentials Unity 5.x Game AI Programming Cookbook

1.2 分析概念

1.2.1 商业智能和报表

1.2.2 大数据

1.2.3 数据科学

1.2.4 边缘（和环境）分析

1.2.5 信息学