1.3.6 大数据
1.大数据相关理论
(1)大数据的定义与特征
大数据是一个宽泛的概念,很多机构和科学家都给出了定义,如麦肯锡(美国著名的咨询公司)给出的大数据定义是:大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。而亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
简单地说,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,它具有4个基本特征:一是数据体量巨大,从TB级别跃升到PB级别(1PB=1024TB)、EB级别(100万个TB)或ZB级别(10亿个TB);二是数据类型多样,现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数;三是处理速度快,数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息;四是价值密度低,商业价值高,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。业界将这4个特征归纳为4个“V”——Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。
在上面几个定义,无一例外地都突出了大数据的“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。与大数据本身的“大”相比,更重要的其实是蕴含在大数据中的价值。因此,在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值,以及在多样的或者大量数据中迅速获取信息的能力,是更为重要的。大数据的核心能力就是发现规律和预测未来。
(2)大数据的价值
大数据的价值是什么?在投资者眼里就是这些数据所体现的资产。比如,某社交网站上市时,评估机构评定的有效资产中大部分都是其网站上的数据。因此,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从大数据的价值链条来分析,存在3种模式:
①手握大数据,但是没有利用好。比较典型的是金融机构、电信行业、政府机构等。
②没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,如IBM、Oracle等。
③既有数据,又有大数据思维。比较典型的是Google、亚马逊等。
未来在大数据领域最具有价值的是两种事物:一种是拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;另一种是还未有被大数据触及过的业务领域,这些是还未被挖掘的油井、金矿,是所谓的蓝海。
(3)大数据的现在和未来
大数据在当下已经在很多方面有着杰出的表现,如大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;大数据帮助医疗机构建立患者的疾病风险跟踪机制;大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标;大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;大数据帮助娱乐行业预测歌手、歌曲、电影、电视剧的受欢迎程度;大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。
其实,这些还远远不够,未来大数据的身影应该无处不在,而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市、智慧交通、智慧能源、智慧医疗、智慧环保的理念需要,它们都将是大数据的采集数据来源和服务范围。
未来的大数据除了将更好地解决社会问题、商业营销问题、科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。比如,建立个人的数据中心,将每个人的日常生活习惯、身体体征、社会网络、知识能力、爱好性情、疾病嗜好、情绪波动等都存储下来,这些数据可以被充分利用:医疗机构将实时地监测用户的身体健康状况;教育机构更有针对地制订用户喜欢的教育培训计划;服务行业为用户提供即时健康的符合用户生活习惯的食物和其他服务;社交网络能为用户提供合适的交友对象,并为志同道合的人群组织各种聚会活动;金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排。
(4)大数据隐私
用户隐私问题一直是大数据应用难以绕开的一个问题,当在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去;当用户莫名其妙地接到各种邮件、电话、短信的滋扰时,不会想到自己的电话号码、邮箱、生日、购买记录、收入水平、家庭住址、亲朋好友等私人信息早就被各种商业机构非法存储或卖给其他任何有需要的企业或个人。更可怕的是,这些信息用户永远无法删除,它们永远存在于互联网的某些人们知道的角落。
很多互联网企业也意识到隐私对于用户的重要性,为了继续得到用户的信任,他们会采取相应的一些办法。比如,一些网络服务商承诺仅保留用户的搜索记录若干个月,浏览器厂商提供了无痕上网模式,社交网站拒绝公共搜索引擎的“爬虫”进入,并将提供出去的数据全部采取匿名方式处理等。
目前,我国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。
2.大数据相关的技术
(1)云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的计算机分配工作。可以说,云计算提供了基础架构平台,而大数据则应用运行在这个平台上。这两者的关系是,没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;而没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。大数据需要的云计算技术包括:虚拟化技术、分布式处理技术、海量数据的存储和管理技术、NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
(2)分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务。
Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。Hadoop是Apache软件基金会管理的开源软件平台,Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。
Hadoop系统的健壮性非常好,即使某台服务器甚至集群停机,运行其上的大数据分析应用也不会中断。此外,Hadoop的效率也很高,它几乎完全是模块化的,这意味着可以用其他软件工具抽换掉Hadoop的模块。这使得Hadoop的架构异常灵活,同时又不牺牲其可靠性和高效率。
Hadoop的另外一个独特之处是:所有的功能都是分布式的,而不是传统数据库的集中式系统。
Hadoop的特性是可靠的、高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
(3)存储技术
大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台。著名的摩尔定律提出:每18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18~24个月就下降一半。成本的不断下降也造就了大数据的可存储性。比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断地扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。
(4)感知技术
大数据的采集和感知技术的发展是紧密联系的。以传感器技术、指纹识别技术、RFID技术、坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。
而随着智能手机的普及,感知技术迎来了发展的高峰期,除了地理位置信息被广泛地应用外,一些新的感知手段也开始登上舞台,很多与感知相关的技术革新让人们耳目一新,其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化,那么世界的本质也就是信息了。
3.大数据的实践
(1)互联网的大数据
互联网上的数据每年增长50%,每两年便翻一番,而目前世界上90%以上的数据是最近几年才产生的。
互联网大数据的典型代表性包括:用户行为数据、用户消费数据、用户地理位置数据、互联网金融数据、用户社交网站生成内容的数据(也称UGC User Generated Content数据)。例如,百度拥有两种类型的大数据:用户搜索表征的需求数据、爬虫和阿拉丁获取的公共Web数据;阿里巴巴拥有交易数据和信用数据,除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据;腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从中可以挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
在信息技术更加发达的美国,除了行业知名的Google等网站外,还涌现了很多大数据类型的公司,它们专门经营数据产品。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,目前人们已经习惯了将自己的生活通过网络进行数据化,方便分享、记录及回忆。
(2)政府的大数据
在美国,奥巴马政府(2012年)宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
在我国,政府各个部门都握有构成社会基础的原始数据,比如气象数据、金融数据、信用数据、电力数据、煤气数据、自来水数据、道路交通数据、客运数据、安全刑事案件数据、住房数据、海关数据、出入境数据、旅游数据、医疗数据、教育数据、环保数据等。这些数据在每个政府部门看起来是单一的、静态的。但是,如果可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
(3)企业的大数据
作为企业来说,最关注的是数据背后能有怎样的信息,企业该做怎样的决策,这一切都需要通过数据来传递和支撑。大数据可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖励忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。
对于企业的大数据,随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。对于提供大数据服务的企业来说,他们等待的是合作机会。
(4)个人的大数据
简单来说,个人的大数据就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。
未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如牙齿监控数据、心率数据、体温数据、视力数据、记忆能力、地理位置信息、社会关系数据、运动数据、饮食数据、购物数据等。用户可以将这些数据分别授权给相应的机构,由他们监控和使用这些数据,进而为用户制订有针对性的服务计划。以个人为中心的大数据有如下一些特性:
①数据仅留存在个人中心,其他第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。
②采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其他类型数据都由用户自己决定是否被采集。
③数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。