1.1 大数据溯源
早在1980年,著名未来学家阿尔文·托夫勒在其所著的《第三次浪潮》中就提出“数据就是财富”,并热情地将“大数据(Big Data)”称颂为“第三次浪潮的华彩乐章”。但是到2008年,学术界、工业界甚至于政府机构才开始密切关注大数据问题。Nature杂志在2008年9月推出了名为“大数据”的封面专栏,Science则在2011年推出了专刊Dealing with Data,主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性(1)。
大数据的概念和技术不是凭空出现的,人们对于大数据的认知或许最早来自托夫勒在其所著的《第三次浪潮》,但是人类对于数据的搜集、存储可以追溯到远古时代,对于事物的数据化发展于计算机的出现。“大数据”并不是作为一个全新的事物出现的,它是基于人类发展过程中,对于数据搜集、存储、分析能力的提升而出现的一种新的思维方式,一种新的服务模型,一股推动经济社会发展新的助力。
1.1.1 数据起源
数据(data)是对客观事件进行观察或记录的结果,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是对客观事物的逻辑归纳,用于表示客观事物的未经加工的原始素材。它可以是数字,也可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,是可识别的对客观事物的属性、数量、位置及其相互关系的抽象表示符号。
图1-2 伊尚戈骨头
大约两万年前的伊尚戈骨头(Ishango Bone,图1-2)被认为是最早的记录数据和分析数据的工具,是旧石器时代人们采用在树枝或者骨头上刻下凹痕的方法来记录日常的交易活动或物品供应。
1991年,计算机科学家蒂姆·伯纳斯·李宣告了我们今天所熟知的万维网的诞生。在一个网站上,他制定了世界网络的协议书,使互联网的数据联通起来,让任何人可以在任何地方进行通信。互联网时代的开启,带动了各行各业的网络化发展。人、物、机器等都可以通过一个终端接入这个不受时间、空间限制的虚拟网络中。在商业、生活、生产、农业、医疗、金融等领域网络化的过程中,带来了以几何倍数增长的数据量。
2004年,Facebook(脸书)、Twitter、Instagram等社交网络的相继问世迎来了开放共享的Web 2.0时代。网络平台不再是自上而下地由少数资源所有者控制,而是自下而上地由广大用户的智慧和力量主导。在Web 2.0模式下,网络用户出于对某个或某些问题的共同兴趣而聚集,这促使他们主动积极地参与问题讨论和信息分享。全球数据量预测如图1-3所示。
根据知名市场研究机构IDC(International Data Corporation,国际数据公司)的研究报告表明,2011年全球数据总量已经达到1.8ZB,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB,如图1-3所示。
1.1.2 数据存储
人们在生产生活过程中所创造的各种数字、图像、文字、记录等需要被采集并保存下来,才能够形成数据。一个坚持30年,每天走一万步的人,他的个人运动数据和位置数据,在微信运动或计步App等出现后,同样的行为才被采集并存储成为数据。
亚历山大图书馆(公元前300年—公元48年)可能是古代最大的数据储存地了,这里50万卷的藏书几乎涵盖了当时人们学习的各个领域。
图1-3 全球数据量预测
(数据来源:IDC)
1928年,工程师波弗劳姆(Fritz Pfleumer)发明了一种用磁带来存储信息的方法。他发明的这个原理今天依然在使用,绝大部分的数据就是存储在有磁性介质的计算机硬盘上。
1965年,英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出了摩尔定律,揭示了信息技术进步的速度。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18~24个月便会增加一倍,性能也将提升一倍。在摩尔定律的推动下,计算存储和传输数据的能力在以指数速度增长,每GB存储器的价格每年下降约40%。
1965年,美国政府计划在世界首个数据中心的磁盘上存储7.42亿的纳税申报单和1.75亿的指纹信息。1967年,IBM公司推出世界上第一张“软盘”,是最早的可移动数据存储介质。
2010年印刷版《大英百科全书》,共32册,重达58.5kg,然而它的全部内容,还装不满一个4GB的U盘。
历史的进程进一步证实了摩尔定律,数据存储能力的指数提升如图1-4所示。
图1-4 数据存储能力的提升
1.1.3 数据计算
数据分析就是对数据进行分析并得出有用的结论。首先不一定使用统计分析的方法;其次,不一定非要处理大量的数据,也不一定要用计算机;再次,数据分析自古就有。百度百科对于数据分析的片面认识反映了国内人们对于数据分析认识的模糊,也反映了商业利益对于正常观念的扭曲。
数据分析早在两千多年前就在使用。在战国时期的孙庞斗智中,孙膑设计蒙骗庞涓,孙膑命令部队,每日大幅减少炉灶的数量。庞涓通过观察孙膑军队的炉灶数量逐日大量减少,分析得出孙膑军队大量逃散的结论,最终上当战败。这就是数据分析。
在辽沈战役中,林彪在诸多战报中发现,在胡家窝棚附近缴获的短枪与长枪的比例比其他战斗中的高,那里缴获和击毁的小车与大车的比例比其他战斗中的高,在那里俘虏和击毙的军官与士兵的比例比其他战斗中的高。他就断定,敌人的指挥所就在这里。果不其然,敌军司令廖耀湘在胡家窝棚附近被逮个正着。这也是数据分析。
数据分析发展自古到今,已经涵盖了最朴素的数据分析,也涵盖了数据统计、数据挖掘和大数据处理的所有内容。这两个案例都说明了数据分析古已有之,且数据分析不一定要有海量数据,也不一定要用复杂度统计分析方法,只要统计数据分类(统计口径)正确;同时还说明了数据分析极其重要,更说明了数据意识和素质的重要。
当各类数据能够被采集并得以保存时,提升计算和分析数据的能力,成为实现数据价值的必要手段。
安提凯希拉(Antikythera)机器,是最早被发现的机械计算机(2),也代表了数据分析能力从人工计算向机械计算的提升。
1663年,约翰·葛兰特(John Graunt)在伦敦用记录下的当时肆虐欧洲的黑死病死亡人数信息,建立起了早期预警系统的理论,是第一次有记录的统计数据分析实验。1865年,银行家亨利·福尼斯(Henry Furnese)用结构化的方式收集和分析有关竞争对手的商业活动来取得竞争优势,这被认为是第一次将数据分析用于商业目的。
1881年,美国人口普查局聘用了一位年轻的工程师赫尔曼·何乐礼(Herman Hollerith),他发明了著名的打孔卡片制表机,被认为是现代计算机的雏形,将原本预计需要花费10年时间去分析的1880年收集到的人口普查数据工作缩短为三个月,数据处理速度提升了近40倍。
1989年,美国计算机协会(Association of Computing Machinery, ACM)数据挖掘机知识发现委员会(Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD)主办了第一届数据挖掘学术年会。基于数据的采集、分类、估值、语言、相关性分组或关联规则、聚集、描述和可视化等分析方法开始深入到人们生活的方方面面。
2004年,谷歌公开的MapReduce分布式并行计算技术,是新型分布式计算技术的代表。一个MapReduce系统由廉价的通用服务器构成,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势。
2005年,Hadoop诞生,它是专门为存储及分析大数据的开源框架。它能够灵活管理人们不断产生和采集的非结构化数据,例如语音、视频、文档等。以Hadoop为代表的分布式存储和计算技术迅猛发展,极大地提升了互联网企业数据管理能力,互联网企业对“数据废气”的挖掘利用大获成功。
2007年,《连线》(Wired)杂志在文章《理论的终结:数据洪流让科学方法过时》中将“大数据”的概念引进了大众的视野(3)。
回顾数据的起源和发展,可以清晰地看到今天的大数据是从最朴素的数据分析、数据统计和数据挖掘一步步走过来的,数据分析为社会带来的经济价值越来越高。今天的大数据也好,数据挖掘也罢,都是在做数据分析这件事,只不过是数据的体量在提高,数据的复杂性在提高,数据处理的能力在提高以及数据处理的结果更具有创造性。
从最朴素的数据分析到大数据处理,运用数据的思路与逻辑是一致的。所有的数据分析无非是在寻找:什么是我要找的数据,我要找的数据在哪里能找到,最大(小)的数是多少,最大(小)的数据在哪里,最大(小)的可能是多少,最大(小)的可能在哪里,哪些因素最相关,相关性多大,从大到小的排序,按照时间或位置排列的升降状态等。数据分析的思路就是搜索、对比、概率计算、相关性分析、分类、排序、预测等,最后做出的结果就是预测、聚类与排序。