1.1 理解“数据治理”
随着大数据时代的到来,流动的数据已成为连接全世界的载体,也成为促进经济社会发展、便利人们生产生活的源动力。伴随着数据流动,尤其是为了解决流动过程中产生的一系列问题,“数据治理”一词逐渐兴起。而要了解数据治理,还得从数据、治理这些基本概念说起。
1.1.1 数据
数据与大数据
什么是数据?传统意义上,数据是指人类对事物进行测量的结果。如今,数据的概念有了很多延展。一般而言,数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。这些物理符号具有抽象、非随机的特点。
从数据的定义来看,数据具有两个特征,一个是差异性,另一个是规律性。差异性主要体现为数据多数描述的是事物的数量特征,现实世界中每件事、每个人、每种物都有不同的特征,因此反映于数据也会有各种不同的表现,甚至从表面看起来可能是杂乱无章的。规律性则主要体现为,数据是具有一定规律的,对数据进行分析研究,很重要的目的就是从数据中找出某种规律和关联。简而言之,正因为数据具有差异性,才有必要对数据进行研究与分析;也正因为数据存在规律性,对其研究才有价值。
时下,人们往往容易将数据与大数据混淆。实际上,两者是有区别的。
对于大数据,麦肯锡全球研究所给出的定义如下:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;高德纳(Gartner)咨询公司给出的定义如下:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。维克托·迈尔·舍恩伯格在《大数据时代》一书中提出,大数据不能用随机分析法(抽样调查)这样的捷径,而要对所有数据进行分析处理。
业界普遍认为,大数据具有数据规模海量(Volume)、数据流转快速(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)四大特征。
(1)数据规模海量
当前,以大数据、物联网、人工智能为核心特征的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据。从1956年IBM发明世界上第一个机械硬盘,两台冰箱大小却只有5MB容量,到现在淘宝网4亿用户每天产生几十TB的数据,数据总量呈指数级增长。衡量数据大小的单位也从MB到GB,到TB,再到PB、EB,相信后面还会不断出现新的记录单位。当数据数量和规模发展到一定程度时,现有的数据存储、分析、计算的方案和技术势必不能满足现实需求,迫切需要更智能的算法、更强大的数据处理平台和更新的数据处理技术来挖掘数据价值。
(2)数据流转快速
与传统的图书、报纸、广播等数据载体不同,数据产生和传播的速度非常快,数据被高速地创建、移动、汇集到服务器。基于此,大数据对数据处理有着非常严格的要求。大数据的处理需符合秒级定律,一般要在秒级时间范围内给出对数据的分析结果。响应时间过长,数据就失去了价值。换言之,谁的数据处理速度快,谁在大数据时代就具备优势。
(3)数据类型多样
传感器、智能设备及移动互联网的飞速发展使数据变得更加复杂,除了传统的关系型数据,还包含结构化、半结构化和非结构化数据。大数据时代,需要处理的数据不仅是海量的,而且是不同种类、不同格式和不同来源的,因此需要一套专门的格式、标准来进行处理。
(4)数据价值巨大
大数据最大的特点在于通过各种数据分析和挖掘方法,发现诸多看似无关的数据之间暗含的规律和关联。例如,阿里巴巴集团每天拥有几亿人的购物数据,通过分析这些数据就可以知道各种产品和市场发展的走势,也可以知道不同用户的爱好和需求,从而进行针对性的推荐,以提高平台的交易量。不过,我们也要看到,虽然大数据的价值巨大,但并不是所有数据都拥有这样的价值。如果把大数据比作一座金矿,有价值的数据就是其中的黄金,这种价值需要一系列加工和处理才可能得到释放。
数据:资源、资产、资本
在数字经济的发展历程中,数据起到了核心和关键作用,人们对数据价值的认识也是由浅入深、由简单趋向复杂。总体来看,数据价值的发展主要分为三个阶段:第一阶段是数据资源阶段,数据是记录、反映现实世界的一种资源;第二阶段是数据资产阶段,数据不仅是一种资源,还是一种资产,是个人或企业资产的重要组成部分,是创造财富的基础;第三阶段是数据资本阶段,数据的资源和资产的特性得到进一步发挥,与价值进行结合,通过交易等各种流动方式,最终变为资本。
(1)数据资源
与传统的农业经济和工业经济不同,数字经济得以发展的基础是信息技术和海量数据。随着信息技术与经济社会的交汇融合,数据成为国家的基础性战略资源,成为驱动经济社会发展的新兴生产要素,与劳动、土地、资本等其他生产要素一同为经济社会的发展创造价值。
但是,数据与这些传统生产要素不同,它具有可再生、无污染、无限性的特征。可再生是指数据资源不是从大自然获得的,而是人类自己生产出来的,通过加工处理后的数据还可以成为新的数据资源;无污染是指数据在获得与使用的过程中不会污染环境;无限性是指数据在使用过程中不会变少,而是越变越多。因此,传统资源越用越少,但数据资源是越用越多。
数据成为资源,也是发现和利用数据价值的一个过程,这一点与传统资源如石油比较相似。首先,要发现各种有用数据的来源,如同勘探油矿;其次,要采集满足特定需求的数据,如同采油;然后,要把采集到的数据按应用需求进行标准化、结构化处理,如同炼油;最后,将加工处理后形成的数据与实际应用相结合,最大程度地发挥数据的作用。因此,在这个阶段,数据是作为一种具有使用价值的资源帮助管理者决策,从而实现其经济效益,同时也成为数字经济发展的关键生产要素。
(2)数据资产
随着数字经济的发展,人们发现,数据不仅仅是资源,还具备资产的特质。所谓资产,是指由企业过去经营交易或由各项事项形成的、被企业拥有或控制的、预期会给企业带来经济利益的资源。从资产的界定来看,它具有现实性、可控性和经济性三个基本特征。现实性是指资产必须是现实已经存在的,还未发生的事物不能称为资产;可控性是指对企业的资产要有所有权或控制权;经济性是指资产预期能给企业带来经济效益。结合资产的特征,数据资产便是指企业在生产经营管理活动中形成的,可拥有或可控制其产生及应用全过程的、可量化的、预期能给企业带来经济效益的数据。实现数据可控制、可量化与可变现属性,体现数据价值的过程,就是数据资产化过程。当前,数据已经渗入各行各业,逐步成为企业不可或缺的战略资产,企业所掌握的数据规模、数据的鲜活程度,以及采集、分析、处理、挖掘数据的能力决定了企业的核心竞争力。
(3)数据资本
2016年3月,麻省理工科技评论与甲骨文公司联合发布了名为《数据资本的兴起》的研究报告。报告指出,数据已经成为一种资本,和金融资本一样,能够产生新的产品和服务。但是,与实物资本不同,数据资本也有自身的特性。例如,非竞争性,即实物资本不能多人同时使用,但是数据资本由于数据的易复制拷贝特点,其使用方可以无限多;不可替代性,即实物资本是可以替换的,人们可以用一桶石油替换另一桶石油,而数据资本则不行,因为不同的数据包含不同的信息,其所包含的价值也是不同的。数据资本化的过程,就是将数据资产的价值和使用价值折算成股份或出资比例,通过数据交易和数据流动变为资本的过程。换句话说,数据作为资本的价值要在数据交易和流动中才能得到充分体现。这也引发了当前业界的一大难题,即数据产权问题。只有确定了数据产权问题,数据交易才具备顺利开展的前提基础。
1.1.2 治理
对于对大数据感兴趣的人来说,“数据治理”这个词并不陌生。但要全面深刻地理解数据治理,还应该从“治理”说起。在英语中,“治理”一词源自拉丁文“gubernare”,原意是控制、引导和操纵,后来逐渐演化成“governor”及“government”。
治理的概念是20世纪90年代在全球范围内逐步兴起的。治理理论的主要创始人之一詹姆斯·N.罗西瑙认为,治理是通行于规制空隙之间的那些制度安排,当两个或更多规制出现重叠、冲突时或者在相互竞争的利益之间需要调解时发挥作用的原则、规范、规则和决策程序。另一位治理研究专家格里·斯托克指出,治理的本质在于它所偏重的统治机制并不依靠政府的权威和制裁;它所要创造的结构和秩序不能从外部强加;它发挥作用是要依靠多种进行统治的以及互相发生影响的行为者的互动。国内学者俞可平提出,治理具有四个特征:(1)治理不是一套规则条例,也不是一种活动,而是一个过程;(2)治理的建立不以支配为基础,而以调和为基础;(3)治理同时涉及公共和私营部门;(4)治理并不意味着一种正式制度,而有赖于持续的相互作用。
国际组织对治理也有各自的理解。世界银行认为,治理是“为发展而管理一个国家经济和社会资源的权力”。联合国全球治理委员会将治理界定为“个人和各种公共或私营的机构管理共同事务的诸多方式之总和,一种使相互冲突的利益得以调和并采取联合行动的持续过程”。
综上所述,治理就是政府、企业、个人以及非政府组织等主体为了管理共同事务,以正式制度、规则和非正式安排的方式相互协调并持续互动的一个过程。
1.1.3 数据治理
数据治理具有治理的很多特征。例如,需要政府、企业、个人以及非政府组织等共同努力,也需要建立一套立法、规章、制度和规则。然而,由于治理的是数据,它又有很多自身的特点。目前,关于数据治理的定义亦是众说纷纭。
根据国际标准化组织IT服务管理与IT治理分技术委员会、国际数据治理研究所(DGI)、IBM数据治理委员会等机构的观点,数据治理意指建立在数据存储、访问、验证、保护和使用之上的一系列程序、标准、角色和指标,以期通过持续的评估、指导和监督,确保富有成效且高效的数据利用,实现企业价值。数据治理的范围如图1-1所示。
图1-1 数据治理的范围
中国在国际场合首次提出“数据治理”的概念,是2014年6月在悉尼召开的ISO/IEC JTC1/SC40(IT治理和IT服务管理分技术委员会)第一次全会上。这个概念一经提出,即引发了国际同行的兴趣和持续研讨。
2014年11月,在荷兰召开的SC40/WG1(IT治理工作组)第二次工作组会议上,中国代表提出了《数据治理白皮书》的框架设想,分析了世界上包括国际数据管理协会(DAMA)、国际数据治理研究所、IBM、高德纳咨询公司等组织在内的主流的数据治理方法论、模型,获得了国际IT治理工作组专家的一致认可。2015年3月,中国信息技术服务标准(ITSS)数据治理研究小组通过走访调研,形成了金融、移动通信、央企能源、互联网企业在数据治理方面的典型案例,进一步明确了数据治理的定义和范围,并于2015年5月在巴西圣保罗召开的SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。报告认为,数据是资产,通过服务产生价值。数据治理主要是在数据产生价值的过程中,治理团队对其做出的评价、指导、控制。
笔者认为,上述几个关于数据治理的界定,内涵已经十分丰富,要义也得到了明确的体现,但还是未能囊括数据治理的全部。
首先,数据不仅仅是企业或机构的资产,更是现代国家的一种基础战略资源。曾有人提出,大数据时代世界上最有价值的资源不再是石油,而是数据。这种提法丝毫未夸大数据的重要作用。煤炭和石油等传统资源是有限的,而大数据作为新型资源,由于具有可复制、递增、共享等特性,其开发和增长是无限的。更重要的是它改变了传统要素格局,新知识和新技术替代资本成为经济发展的主导因素,符合智慧、绿色、共享和低成本的可持续发展理念,将助力实现发展方式的真正转变。
其次,数据治理的目的不仅仅是确保数据的高效利用和实现企业价值,更是为了提升政府公共管理能力和国家治理能力。正如《数据治理白皮书》所描述的,企业开展有效的数据治理,会通过改进决策、缩减成本、降低风险和提高安全合规等方式将价值回馈于业务,并最终体现为增加收入和利润。但是,拥有数据的往往并不只是企业。有统计显示,政府拥有全社会80%的数据资源,通过运用大数据、云计算等现代信息技术,形成“用数据决策、用数据管理、用数据服务”的公共管理与服务机制,能够有效提升政府公共管理能力和国家治理能力,促进经济社会的快速健康发展。
再次,开展数据治理不仅仅局限于企业,政府和个人更是数据治理的重要主体。当前,无论国际、国内,提到数据治理基本都是指企业行为,但实际上政府在数据治理中能够发挥更主动的作用。例如,开展数据治理顶层设计、推动政务数据开放共享、建立完善的数据权责体系等。个人也应该积极参与数据治理。由于政府和企业收集的信息中有相当大的部分是个人信息和数据,而近年来泄露、滥用和非法买卖个人信息的现象十分严重,给部分民众造成了巨大的经济损失和精神伤害。所以,个人参与数据治理主要是积极保护个人信息和维护个人权益。
最后,数据治理不仅仅依靠模型和框架,还要采用法律、行政、教育、道德伦理等方法和手段。当前,围绕对数据的采集、分析、挖掘、应用、共享和保护等出现了诸多问题,亟需通过出台数据立法和行政规章制度加以明确和规范。针对数据利用过程中出现的一系列安全隐患,要加强网络安全教育和培训,提升从业人员的专业素质和普通民众的意识技能。对于那些倒买倒卖生物特征信息等敏感数据的行为,要辅之以伦理和道德方面的分析和教化,必要时可在立法中加大处罚力度。
综上所述,笔者认为,从宏观层面看,数据治理是指政府等公共机构、企业等私营机构以及个人,为了最大程度地挖掘和释放数据价值,推动数据安全、有序流动而采取政策、法律、标准、技术等一系列措施的过程,如图1-2所示。从微观层面看,数据治理是不同的机构对各种各样的元数据进行处理和分析的过程,如图1-3所示。换句话说,无论何种主体以何种方式,只要围绕数据安全、有序流动所采取的行动,就是数据治理的范畴。
图1-2 宏观层面的数据治理
图1-3 微观层面的数据治理