2012年上半年,我陆续写了一组关于大数据现象的文章,发表在杂志和网络上。下半年,旅美专家涂子沛和英国学者舍恩伯格关于大数据的书相继出版。于是,网络业和IT业关于大数据的讨论多了起来,渐渐在社会上也流传开来。
时至今日,在如何定义大数据的概念问题上,还没有一个学界和业界的共识,还是瞎子摸象,自说自话。多数人把大数据看作是互联网上的一种现象,或是一种互联网技术,与云计算、无线互联网等概念并列使用。虽然提供大数据服务的公司已经很多,但还没有形成一个大数据产业。这并不奇怪,因为大数据时代刚刚开始,人们的认识和实践还难免受到与其关系密切的网络业和IT业的传承的影响,还不能比较抽象、前瞻、深入地分析和认识大数据现象,更不用说学界把大数据当作一个严肃的学术讨论对象,这恐怕是十年以后的事情了。
虽然认识还不到位,但并不妨碍人们的探索,这也符合一般规律,摸着石头过河,实践走在认识前面。大体上看,在大数据方面的第一波创新尝试大致集中在三个领域,即网络业、制造业和公共服务业,以及三者之间的互动融合。
网络业的大数据实践由浅入深可以分为四类。第一类是大数据技术的发展,例如数据标准化、存储、传输、加工、利用等方面的进步,以应对数据增长快、规模大、种类多的挑战。第二类是对现有网络服务所获得的相关数据进行挖掘,以提高服务效率和收益。第三类是对数据终端与应用之间、网络平台与应用之间以及各类服务之间进行数据标准化、通用化和关联化的努力,以求得综合服务效应,获得额外的收益。第四类是基于可获取的数据设计全新的产品和服务,或者取代现有类似服务,或者开辟网络服务新天地。相对而言,前两类还算不上严格意义上的大数据实践,只能视其为大数据的前期准备,为真正的大数据培养人才和技术能力。后两类是大数据创新的主流,但为时尚短,还没有突破性的大创新出现,需要三五年才可能见到成效。
比起网络业,制造业在大数据方面的创新进展要显著得多。第一类是以3D打印技术为代表的数据化制造方式正在以日新月异的速度发展,大至飞机汽车、高楼建筑,小至原子和DNA层级的新材料研制,数据化制造将很快成为制造业创新的主流。第二类是制造业产品的数据终端化,越来越多的工业制成品具备了互联互通、数据生成的功能,像手机一样可以生产数据、传输数据,依托数据维持运行。第三类是传统制造技术与流程的数据化,主要表现为自动控制和智能化生产,也就是所谓“工业4.0”。
公共服务方向的大数据实践表现比较醒目的有三个领域。第一个领域是通过应用大数据技术提供国家安全和公共安全的服务。撇开政治和社会争议不谈,斯诺登事件显示了掌控巨大资源和权力的政府系统已经在大数据方面走到了大规模实战的程度。第二个领域是公共卫生与保健领域,在社会医疗保险和医疗成本监控方面已经出现了比较成熟的大数据应用,在数据化医疗保健方面,各种创新层出不穷,很可能带来传统医疗保健机制的革命性变革。第三个领域是金融服务业,传统上分门别类的金融服务,包括银行、保险、投资、理财等,有可能架构重组,形成以用户(包括机构与个人)为中心,以大数据为基础的综合性金融服务。
比较而言,网络业的大数据发展难度低一些,一是因为网络上的数据已经存在,挑战主要在如何利用;二是因为大数据需要的基础设施、技术能力和资本在网络业已经存在,挑战主要在如何创新;三是因为没有历史包袱,走向大数据不需付出过多的转型成本。
像制造业这样历史悠久的传统产业发展大数据难度比较大:一是惯性思维制约了创造性思维的产生,例如像苹果手机那样的智能手机居然不是在手机业产生,反倒要毫无手机制造能力的苹果公司先走一步;二是数据终端型的产品要能够做到成本可控、市场欢迎、收益良好需要漫长的试错过程和用户接受过程;三是大数据制造需要一批新人、新技术、新设备,需要淘汰大量旧人、旧技术、旧设备,这往往意味着企业重组甚至破产重生。
公共服务领域走向大数据,挑战不仅在于从事大数据公共服务的机构和个人,更在于全社会接受和适应大数据公共服务的决心和能力。一个全新的大数据服务往往意味着社会的权力重组、利益调整和运行机制的改变,意味着公民权利和文化的再定义,这需要一个社会具备开放的能力,结构弹性较强。对于像中国这样一个开始走向现代化,改革开放进程远未完成的发展中国家来说,面对大数据时代的新挑战,应当是一个相当艰巨、漫长的历史过程。长期停滞不前或者短暂的倒退恐怕难以避免。