第三节 大数据的理论传统
虽然对大数据尚未有公认的定义,但并不意味着大家对这个概念没有较为普遍的共识,从以上定义来看,我们可以认为大数据是伴随数据信息的存储、分析等技术进步,而被人们所收集、利用的超出以往数据体量、类型,具有更高价值的数据集合、信息资产。随着信息的发展,人们对大数据研究分析,从中提取出极具价值的信息,无论是对商业的发展还是对社会的进步都具有跨时代的意义,这也是促进国家和社会推动大数据分析的核心动力。笔者认为,从大数据分析研究的理论起源看,主要包含统计学传统、数据挖掘传统和数据可视化传统三大传统。
图1-2 大数据的三个理论传统
一 统计学传统
经济社会研究中的统计学传统起步很早。早在1690年代,经济学家威廉·配第在其代表作《政治算术》中就提出运用统计方法来度量经济社会现象的思路。他指出:“我所采取的方法尚不常见。与只是用比较级和最高级的词语,以及单纯做思维的论证相反,我采用了这样的方法……用数字、重量或者尺度的词汇来表达我自己的想法;只利用能诉诸人们感官的论点,只考察在本质上具有明显基础的原因。”[21]他是最早设法度量一国的人口、国民收入、出口、进口、资本量的经济学家,尽管其所用的方法今天来看十分简单,但这种开创性见解是经济学现代思想的基石[22]。
统计学研究的基础就是样本数据,因此统计学的基本思想自然而然成为大数据分析思想的重要起源。但在大数据技术出现之前,统计学在研究复杂的经济社会问题时,不可避免地面临大量问题,包括统计时滞性、样本误差、数据获取成本过高等。
哈耶克曾十分深刻地指出了统计学方法在分析复杂问题时的根本性瓶颈。他指出:“从本质上说,统计学是通过消除复杂性来处理大量数据的,它有意识地把它所计算的每个要素,看成它们之间仿佛没有系统地相互联系在一起。它通过用出现率信息取代有关个别要素的信息,避开复杂性问题,它故意不考虑一个结构中不同要素的相对位置也会有一定作用这个事实。换言之,它的工作假设是,只要掌握了一个集(Collective)中不同要素的出现率,就足以解释这种现象,因此有关这些要素相互联系的方式的信息是没有必要的。只有当我们故意忽略,或者并不知道有着不同属性的每个要素之间的关系时,也就是说,当不考虑或不了解它们所形成的任何结构时,统计学方法才是有用的。”因此,“当我们所拥有的是人口中各种因素的信息时,统计学能够成功地应付这种复杂的结构,然而它却不能告诉我们这些因素的结构。用时髦的话说,统计学把它们看作‘黑箱’,认为它们类型相同,但是对它们的统一特征不做任何说明。大概谁也不会严肃地主张,统计学能够解释即使是相对而言不十分复杂的有机分子结构,也没有谁会认为,它能帮助我们解释有机体的功能。但是在说明社会结构的功能时,人们却广泛地持有这种信念”。[23]
很多学者指出,大数据方法相比统计学方法的根本性进步是其使经济社会研究从样本统计时代走向总体普查时代[24]。因为宏观经济系统纷繁复杂,如果能将对整体宏观经济变量的分析建立在尽可能多的关于经济主体行为的数据信息以及其他诸多经济变量的信息基础上,甚至抛弃原有的假设检验的模式,无疑将会极大地提高宏观经济分析的准确性和可信度,甚至从根本上解决哈耶克所指出的难题。
尽管如此,不可否认的是,大数据分析中的很多思想直接起源于统计学领域。在此,笔者试举两个小案例作为佐证。
第一个案例,统计分析中的比对和发现异常思维。林彪元帅是一位十分注重运用数据分析剥茧抽丝进而精准把握战场中各类情报的军事家。辽沈战役胡家窝棚战斗期间,林彪通过第3纵队7师21团3营报送情报得知,在胡家窝棚国民党军佩戴短枪的比拿长枪的多、小汽车多、电话线多、瓦房上天线林立,因此断定此处必有“大鱼”,果断下令出击攻入廖耀湘兵团指挥机关,让整个敌军因失去指挥而方寸大乱。这场看似偶然的行动,使我军终于精确判明了廖耀湘的位置,让后续全面围歼的计划拨云见日。这个故事中,林彪使用的数据量可能并不“大”,但通过发现这一异常点,其所创造的价值却非常“大”,因此可以说也是大数据分析思想的一种体现。这也告诉我们,大数据分析与传统意义上的统计分析不同,很多时候并不是为了验证人们提出的某一假设,而恰恰是要寻找和人们预期的“不一致性”趋势,比如发现一些孤立点、异常点、突变点等。
第二个案例,来自著名数理经济学家、数理方法与效用理论的先驱者之一威廉·斯坦利·杰文斯。杰文斯对挖掘导致价格波动的贸易或经济周期原因感兴趣。因为循环行为看上去并不与个人效用最大化行为相关,所以,他认为自然界中一定存在某种原因——一些引起波动的自然现象。初步的研究使他认为,经济活动波动的原因很有可能是与天气有关的某种东西。他把注意力集中在太阳黑子(太阳活动的周期性波动)上,将其视为可能的原因。杰文斯的具体假设是,太阳黑子循环以11.1年为一个周期而发生,这些循环导致了天气的循环,从而导致经济周期。为了验证他的理论,杰文斯着眼于13世纪和14世纪以来可供使用的有关收成波动的农业数据。其后,他试图将这些收成波动与19世纪对太阳黑子活动的估计,即11.1年一个周期的估计相连。他假设日斑循环的长度不变,通过在代表11年的一个网格上展示数据,并目测数据,对两者进行比较。他注意到一种相对来说较好的“适合”,循环看上去匹配。然后,他考察19世纪期间商业信用的周期,并发现平均周期是10.8年。他断定,经济周期的可能原因是太阳黑子[25]。这个案例所基于的数据量同样很小,但其体现了现代大数据分析方法中时序预测这一重要应用方向。针对这一问题,在后文中还将展开论述,此处不再赘述。
二 数据挖掘传统
数据挖掘研究是大数据分析最直接的理论前身。1995年,费亚德(U.M.Fayyad)在国际数据挖掘领域的顶级峰会——知识发现会议(KDD)上首次提出了大数据的概念[26],并将其基本目标概括为两个方面:描述(Descriptive)与预测(Predictive),前者的目的是刻画海量数据中潜在的模式,后者则是根据数据中潜在的模式来进行预测,进而发现数据中有价值的模型和规律。
第一种模式下,针对海量数据背后所隐藏各种关联模式开展挖掘,是大数据研究最重要的应用方向之一。维克托·迈尔-舍恩伯格、肯尼思·库克耶认为,由于大数据突破了传统样本采集方式的数据规模局限,而得以在很大程度上采用全样本海量数据开展分析,因此其可以大量使用相关性挖掘的方法,发现隐藏在海量数据背后的线索性信息,从而揭示样本数据无法涵盖的各种细节信息[27]。换言之,大数据分析不关心因果逻辑,而只是通过对海量数据背后关系的分析挖掘,找到对人们生产生活具有指导意义的关联关系。一个典型的案例就是“啤酒+尿布”的故事。国外超市通过分析顾客的购买记录,发现很多人在购买啤酒的同时也会采购尿布,因此在货架摆放时将这两类商品放在一起,就能有效提高销量。通过大数据分析,我们可以发现“啤酒”和“尿布”的关联关系帮助超市增加销量,但并不关心这种关联关系背后的原因。当然,针对这一问题,也有学者认为,目前基于大数据的分析主要是寻找变量间的相关性,而不是因果关系,基于大数据的经济社会解释能力有待进步,反映出其某些理论基础尚未完全夯实[28]。
第二种模式的核心则是预测模式的革命性变革。如前所述,在统计学方法中,基于有限统计样本数据的预测方法同样十分流行,其主要可以分为基于理论驱动的结构模型和基于数据驱动的时序模型两大类[29]。前者是以宏观经济理论为基础,构建数理分析模型,然后“统计化”,形成经济计量模型,利用统计数据进行参数估计,并以此分析宏观经济变量之间的数量关系以及对关注变量进行预测。后者则不依赖任何经济理论,纯粹依靠数据的内在规律进行建模,其不强调内在的经济理论逻辑,更多地关注变量本身的变化特征和在时间维度上的延续性,并利用这种数据内在的变化模式预测未来。
但总体而言,这两种模式基本的逻辑是通过历史数据发现经济运行的基本规律,通过历史数据中发现的规律来预测未来经济情况,因此其严重依赖经济系统规律的延续性,在面对重大外部性风险(如金融危机)或结构性变化(如科技革命)时,其预测效果会大打折扣——这也是上文提到的哈耶克批判的根本性原因。在大数据时代,由于人们可以突破样本采集方法的局限,从而实现对全样本、全天候、全场景、全方位数据的采集,其对于经济社会运行主体的预测能力会有巨大提升。著名大数据科学家巴拉巴西甚至乐观地指出:“如果你知道一个人过去的所有社会数据,那么你对他未来行为的预测的准确性将达到93%。”[30]有学者认为,随着大数据广泛获取经济社会主体各类行为数据能力的日益提升,将为测量经济社会主体预期和量化主体情绪提供新的路径,有望渐进打开经济主体预期形成过程的“黑箱”[31],大大提高预测分析能力。
三 数据可视化传统
在计算机学科分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。1967年,法国人Jacques Bertin出版了《图形符号学》(Semiology of Graphics )一书,确定了构成图形的基本要素,并且描述了一种关于图形设计的框架,被视为数据可视化的重要理论基石。
数据可视化出现的根本原因,是人类分析数据(通过视觉、听觉等感官)的能力受限于生物学进化过程而相比前现代化时代几乎没有任何提升;而与之相对,近代以来人类在采集、获取、传输数据方面的能力因为信息技术的发展而出现了巨大进步,从而导致人类数据分析能力远远落后于数据获取能力,也就是所谓“数据大爆炸”。这个挑战不仅在于数据量越来越大、高维、多元源、多态,更重要的是数据获取的动态性、数据内容的噪声和互相矛盾、数据关系的异构与异质性等。相比而言,人眼是一个高带宽的巨量视觉信号输入并行处理器,对可视符号的感知速度比对数字或文本快多个数量级。大脑对于视觉信息的记忆效果和记忆速度好于对语言的记忆效果和记忆速度。因此,在数据分析中大量使用可视化技术,能够提高人们信息认知的效率,帮助人们有意识地集中注意力,激发人们的智力和洞察力。
近年来,数据可视化技术已然成为大数据热潮中的时髦概念,但很多人对于可视化的认知往往停留在酷炫、动感等浅层的视觉冲击层面。而结合上文对数据可视化出现的根本原因分析,我们认为,这种认识是很不全面的,甚至是大大偏离了数据可视化出现的初衷。一个好的可视化案例,不一定要非常漂亮,但一定要能帮助人们快速实现从“读数”向“读图”的认知跃迁,从而帮助人们改变思考问题的方式,提高决策效率。
依然举一个小案例作为佐证:1854年伦敦爆发严重霍乱,10天内有500人死去,当时流行的观点是霍乱是通过空气传播的。而流行病学家John Snow医生则做了一个今天看来十分简单的可视化分析,他在地图上用记号标注了死亡案例,每死亡一人标注一条横线,最终地图“开口说话”,显示大多数病例的住所都围绕在Broad Street水泵附近,霍乱是通过饮用水传播的,于是移掉了Broad Street水泵的把手,霍乱最终得到控制。这是一个非常典型的数据可视化案例,其直观且有力地证实了霍乱的传播与水井的关系,从而帮助人们迅速抓住数据背后的规律性问题。
图1-3 John Snow绘制的伦敦某区域霍乱发生与水井的关系图