数据分析即未来:企业全生命周期数据分析应用之道
上QQ阅读APP看书,第一时间看更新

1.1 基本概念

彼得·德鲁克(Peter Drucker)在他的著作The Age of Discontinuity(Drucker,1969)中首次提到了“知识经济”一词。知识经济指的是利用知识“创造有形和无形的价值”。近50年后,各类组织实际上已经转变了自己,以迎接知识经济的挑战,数据和分析已成为促成这种转变的核心。

在本章中,我们讨论分析的“基础”,希望为那些对从分析概念转向分析实践感兴趣的人创造一个公平的竞技平台。分析的基础包括使用大家能达成共识的专业术语,对数据和分析进行统一的定义。此外,我认为在更加广泛的背景下讨论分析成果的应用方法及其产生的价值也非常重要。最后,在本章中,我把分析与其他经常混淆的相关术语进行比较,找出异同点。

1.1.1 数据

数据几乎渗透到我们生活的每一个角落,从我们在手机中留下的数字足迹,到健康记录,再到购物历史,以及对资源(如能源)的使用情况。在当今这个数字世界里,脱离数字的生活虽然不是不可接受的,但也需要巨大的牺牲精神和不可思议的毅力才能忍受。我们不仅是数据制造者,同时也是活跃的数据消费者,例如我们时常检查自己的在线消费习惯,监测健身程序,或者查看自己的常旅客积分是否够去加勒比度假,这些行为都是在消费数据。

但数据到底是什么?按最通用的形式来理解,数据就是被储存起来以备日后使用的信息。最早记录信息的方式可能是在动物骨头上刻蚀符号(SACK,2012)。到了20世纪50年代,人们开始在磁带上记录数字信息,然后是打孔卡片,再后来是使用磁盘。现代数据处理开始的时间并不长,但已经奠定了我们如何收集、存储、管理、使用信息的基础。

直到最近,我们对那些无法计算的信息(例如,视频和图像信息)还只能进行分类处理。但近几年来,通过大量的技术变革,无法存储的数据类型变得越来越少了。事实上,存储的信息,或者数据,就是以一种可用的编码方式,为了我们可计算的目的而建立的真实世界的模型(Wolfram,2010)。

数据是真实世界中所发生事情的持续记录或“模型”,这一事实是分析学的一个重要特征。被公认为“20世纪最伟大的统计学家之一”(Champkin,2013)的乔治·鲍克斯(George Box)曾经说过:“所有的模型都是错误的,但有些模型是有用的。”[1]很多时候,我们在数据中发现一些没有意义或者完全错误的东西。请记住,数据是从真实的物理世界转化并抽象为代表真实世界的东西,即乔治所说的“模型”。就像机械速度计是测量速度的标准一样(也是衡量速率的一个很好的替代物),这个模型(指机械速度计)实际上是测量轮胎的转速,而不是速度。(对此专题感兴趣的读者,推荐你去阅读Woodford发表于2016年的关于“速度计”(Speedometers)的相关文章,它解释了速度计的工作原理。)总之,数据是存储的信息,是所有分析的基础。例如,在可视化分析中,我们利用可视化技术和交互界面对数据进行解析和推理,找出数据本身存在的规律。

[1] 这句话的英文原文是“All models are wrong,but some are useful.”它表示的含意是:虽然没有一个模型能够百分之百精确地拟合某个现实世界的事物,但一些合理准确模型所得出的分析洞见,对我们是很有帮助的。

1.1.2 分析

分析(analytics)可能是商业中使用得最多但却最难理解的术语之一。对一些人来说,它是一种用来“把数据屈打成招”(找出数据中潜藏规律)的技术或技巧,或者仅仅是商业智能与数据仓库的延伸;而对另外一些人来说,分析则是用于开发模型的统计、数学或定量方法。

Merriam-Webster字典(Merriam-Webster,2017)称分析是“一种逻辑分析的方法”。Dictionary.com字典(dictionary.com,2017)将分析定义为“逻辑分析的科学”。不幸的是,两种定义都直接使用了分析(analysis)这个词的词根,似乎存在循环解释的逻辑错误。

分析(analysis)这个词的起源可以追溯到16世纪80年代的中世纪拉丁语(analyticus)和希腊语(analytikόs),意思是“分解”(break up)或者“放松”(loosen)。在本书中,我把分析(analytics)定义为一种解决数据驱动问题的结构化方法:通过对事实(数据)的仔细推敲,帮助我们解决问题的一套方法论。

1.1.3 什么是分析

关于分析的定义有很多争论(Rose,2016)。本书的目的不是重新给出分析的定义,或者质疑人们已经给出的分析的定义。但就当前讨论的问题而言,我将分析定义为:

一种全面的、基于数据驱动的解决问题的策略与方法。

我有意避免将分析定义为某个“过程”、某种“科学”或“学科”。相反,我将分析定义为一种全面的策略,正如读者将在本书第二部分中看到的那样,它是包含过程、规则、可交付物的最佳实践。

分析通过使用逻辑、归纳推理演绎推理、批判思维、定量方法(结合数据)等手段,来检验和分析现象,从而确定其本质特征。分析植根于科学方法(Shuttleworth,2009),包括问题的识别和理解、理论生成、假设检验和结果交流。

归纳推理

当积累的证据被用来支持一个结论,但结论仍带有一些不确定性的时候,就会用到归纳推理方法。也就是说,最终的结论有可能(存在一定概率)与给定前提不一致。通过归纳推理,我们基于具体的观测或数据能够做出广泛的、一般意义上的概括和总结。

演绎推理

演绎推理基于某些一般案例提出论断,然后依靠数据,使用统计推断实验手段证明或证伪提出的论断。例如,按照演绎推理方法,我们提出一个关于世界运动方式的基本理论,然后(应用数据)去检验我们提出的假设的正确性。

稍后我们将在本章中更详细地探讨这一点。

分析可以用来解决各种各样的问题。例如,UPS公司应用分析结果而采取优化货物运输措施,节省了150多万加仑(1加仑=3.78541立方分米)的燃油,减少了14000吨的二氧化碳排放量(Schlangenstein,2013年);克利夫兰诊所利用分析结果优化了手术室的运营时间安排(Schouten,2013年)。有了这些成功案例,对于技术供应商(硬件和软件)和其他不同支持者来说,“分析”毫无疑问都是极具吸引力的。当然,“分析”这个词当前存在过度使用危险,这可以从人们把这个术语与其他词的各种组合中看出。诸如:

·大数据分析(big data analytics)

·规范性分析(prescriptive analytics)

·业务分析(business analytics)

·操作分析(operational analytics)

·高级分析(advanced analytics)

·实时分析(real-time analytics)

·边缘或环境分析(edge or ambient analytics)

虽然以上这些组合与搭配在分析应用的类型和描述上具有独特性,但也经常造成理解上的混乱,特别是对企业高管(如CXO层次高管)而言,技术供应商总是热衷于提供最新的分析解决方案,试图能解决他们的每一个业务痛点。我的观点(许多志同道合、理性思考的人也有与我相同的观点)是,分析并不是一种技术,技术只是在分析活动中起到了推动和赋能作用的策略和方法。

分析通常也指能够识别数据之间有业务意义的模式和关系的任何解决方案。分析被用于解析不同规模的、不同复杂程度的、结构化和非结构化的、定量或定性的数据,以便从中实现对特定问题的理解、预测或优化的明确目的。所谓高级分析也是分析的子集,它使用复杂的分析技术来支持基于事实的决策过程,而且这种分析通常是以自动化或半自动化的方式开展的。

高级分析通常包括数据挖掘、计量经济建模、预测、优化、预测建模、模拟、统计和文本挖掘等技术。

1.1.4 分析与其他概念的区别

Vincent Granville管理着一家数据科学中心(Data Science Central),这是一个专门面向数据科学家的社交网络,他提出了数据科学的16条数据分析规则(Granville,2014)。我们没有完全复述这些规则(当然,很值得读者专门去研读它们),作为澄清分析含义的一种有益方式,我们在这里重点讲清楚分析与类似概念之间的差异,搞清楚这些差异,对读者非常有帮助。下面,我们从概念和方法两方面来描述分析(与其他类似方法的关系):

1.概念

·商业智能和报表

·大数据

·数据科学

·边缘和环境分析

·信息科学

·人工智能与认知计算

2.方法

·应用统计和数学

·预测和时间序列

·自然语言处理(NLP)、文本挖掘和文本分析

·机器学习和数据挖掘

·进一步阐述之前,让我们先来区分概念方法

概念

概念是帮助我们理解某物是什么或它是如何工作的通用思维结构。

方法

在本书中,方法是指通过分析获得问题解决方案的具体技术或方式。

换一个角度来理解,“方法”描述针对不同类型问题的解决办法或途径。例如,我们可能会把某件事看作是一个优化问题或者一个预测问题,而大数据是一个帮助我们理解现代数据挑战复杂性的心理模型。同样,正如我们在本章后面将看到的,机器学习可以简单地被认为是人工智能的现状,后者是概念,前者是方法。