●○●数据已成为生活必需品?
在很多会议上,总听到一些专家们开讲大数据时以引用名人的话开头说:“不要迷信数据,数据只是底层的东西,没什么价值。真正重要的是如何把数据变成信息,信息变成知识,知识变成智慧,即所谓Data-Information-Knowledge-Wisdom金字塔,简称DIKW模型。”这个在20世纪90年代初期形成的说法流行一时,被写进很多计算机教科书里,以至于今天还有许多出了校门就不再读书思考的人将其奉为不变真理,即使过了四分之一世纪后仍旧不假思索地照本宣科。
在这些人眼中,“数据”和“大数据”其实是一个概念,只有量的多少,没有质的差别。这种说法迷惑了很多外行人,或者以为大数据不过是层出不穷的时髦概念中的一个,没什么实质性内容;或者以为大数据不过是古已有之的数据概念的扩展和延伸,继续过去的思路去把握即可。
其实,DIKW模型不过是古希腊哲学中形式逻辑基本架构的现代翻版,没什么新意。在亚里士多德那里,形式逻辑的最基本要素是概念,确定概念间关系的是命题,命题推演开来得到定理或推论,所谓智慧,无非是将众多定理和推论进行更抽象的思考和分析的能力。早期计算机发展中主要遵循形式逻辑的规则,人们输入若干搜集来的数据,然后通过机器的逻辑运算获得数据间各种数量关系和相关关系。在此基础上,人们用头脑去做进一步的推论。所以,有些人认为,机器最多可以处理数据和信息,知识和智慧只能通过人脑形成。人类思维能力的神秘性、智慧的崇高性,乃至于掌握了若干知识和智慧能力的精英们的社会地位和影响力,无不基于这一假设。
社会的发展开始打破这一古老的传说,而最终暴露出这种传说的谬误的力量来自由数据向大数据演变的过程。无论数据还是大数据,从表面形式看都是一堆数据而已,但本质上二者逐渐产生多方面的差异。
首先,数据的产生早已不是仅仅局限于若干实验室和办公室,由若干经过训练的专业人士采集整理而成,而是万事万物都在数据化,数据成为世界的另外一种存在形式。今天绝大部分的数据都不是人们有目的、有意识、在一个封闭环境中进行分析利用的产物,而是人们为了实现其他目的而不得不制造出的东西。这些东西对特定目的而言,是噪音,是垃圾,是负担,既不是信息,也不能产生知识和智慧。人们现有知识和智慧所能处理的数据大概仅占现有数据量的万分之一,而从时间和经济成本考虑,这万分之一能够被处理的数据中真正被处理的又不到其百分之一。所以,那种在人工封闭环境中的“数据—信息—知识—智慧”模式就显得很苍白,很无力,很没有说服力。
其次,正因为世上万事万物都在被数据化,那么由此产生的数据形态就与原有物质形态相对应,数据之间的相关性、因果性和或然性都以原生态的形式呈现出来,成为原生态的信息。人们得到的数据不再是过去那种人工采集所得到的孤立、零碎、片面、带有明确目的性和主观性的东西,而是原生态的数据群落,既包括数据,也包括数据间的关系。那些体现同一主体的众多数据可以根据其内在联系成为时下被科学家们命名为“元数据”的东西。例如,一个人的全部网络行为记录数据,就构成其网络生活的全景图谱,没必要再去考证、推论、猜测才能得出结论。一个人的体温达到38℃,同时其全面的身体状态数据也呈现出来,使得数据化诊断成为非常简单的事情。至于一个国家、一个具体领域,如果能够得到其动态、实时、全面的数据,那么,理解、分析、把握的事情也就不是什么了不起的工作。
再者,数据产生、存储、处理、传输和利用的人工设备不再仅仅是传统意义上的计算机,而是任何具备相同功能的人工制造物,例如手机、眼镜、手表、衣物、汽车、飞机、机床等,更不用谈数以十亿计的各种传感器。据专业机构预测,到2020年,世界上各种各样的数据终端总数将超过500亿。同样,和数据打交道的人也不再仅仅是数量有限的专家,而是绝大部分人类。获得数据的目的不再仅仅是科学兴趣或专业需求、获得知识和智慧的途径,而是日常生活的一部分。数据化生活不仅仅是在个人层面,而是在企业、机构、组织层面,进而在国家层面都具有了不可或缺的意义。如果说在过去,知其然,不知其所以然,是用来嘲讽一些人的浅薄无知,那么,在大数据时代,对大多数人大多数事情而言,知其然足矣,何必一定要知其所以然?换句话说,获取数据的目的不再局限于为知识和智慧打基础,而成为空气和水一样的生活必需品。
最后,原生态的数据群落已经不能仅仅靠形式逻辑去分析推理,实时、动态、复杂相关的海量数据还需要非形式逻辑和概率分析。越来越多的专业人士开始把数据、信息、知识作为同义词使用,因为没有非数据化或不能数据化的信息,也没有非数据化或不能数据化的知识,即使是过去被人神秘化的所谓“智慧”,也在近年轰轰烈烈的人工智能发展中逐步被认知,被数据化,变为毫不神秘的一堆数据。过去,人类用了十年时间,将人类DNA数据化,使得生命过程不再神秘,数据化医疗保健成为可能。现在,美国和欧洲又分别启动了人脑数据化的十年项目,将人类思维机制和过程数据化,使“智慧”数据化。这样看起来,数据既是手段,也是目的,既是此岸,也是彼岸,“大数据”之大,意义便是如此。
简而言之,数据是信息,数据是知识,数据是智慧,数据是一切的一切。这应该令人兴奋,而不是恐惧。什么可知不可知,陈腐的观念在大数据面前不堪一击。而旧瓶装新酒,还在用过时的数据概念和认知理论套在大数据现象上,不仅无用,而且误导。