
1.1 大数据简介
人类是数据的创造者和使用者。随着计算机和互联网的广泛应用,人类创造的数据量呈指数级增长,采集存储和处理数据的能力也大幅提升。全球数据种类的不断增多,数据总量的迅速增长,促成了大数据(Big Data)的产生。本节主要讲解什么是数据,什么是大数据,以及大数据的技术应用。
1.1.1 数据的概念、类型、组织形式
1.数据的概念
数据是信息的载体,是事实或观察的结果,是对客观事物属性的逻辑归纳,是用于表示客观事物的未加工的原始素材。在计算机科学中,数据是所有能输入到计算机中并被计算机程序处理的符号的总称。
2.数据的类型
数据类型主要分为结构化数据、非结构化数据、半结构化数据。随着数据种类的不断增多,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,如图1-1所示。半结构化数据和非结构化数据越来越成为数据的主要部分。下面分别介绍这三种数据类型。

图1-1 结构化数据、半结构化数据和非结构化数据占比
(1)结构化数据
结构化数据也称为行数据,是由二维表结构来逻辑表达的数据(如学生成绩表),严格地遵守数据格式与长度规范,主要通过关系数据库来进行存储和管理。例如,MySQL表数据、SQLServer表数据、DB2表数据等使用二维形式表示的数据都是结构化数据。
结构化数据存储和排列都是很有规律的,对于数据的查询和修改有很大的帮助。但是结构化数据的扩展性不好。
结构化数据最终是以表格的形式存储到数据库中,数据格式统一。结构化数据主要应用于如下场景中:企业资源计划(Enterprise Resource Planning,ERP)系统、财务系统、医院信息系统、教育一卡通系统等。
(2)非结构化数据
与结构化数据相对应的是非结构化数据,它的数据结构不规则或者不完整,不适合用数据库二维表来表现。非结构化数据格式非常多样,没有统一的数据结构,如所有格式的办公文档(Word、PPT等)、文本、HTML、图片、音频、图像等都是非结构化数据。
非结构化数据的格式是多样性的,标准也是多样性的。结构化数据与非结构化数据最大的区别在于分析结构化数据与非结构化数据的便利性。对于数据是结构化数据还是非结构化数据,没有任何的偏好,需要根据具体的需求和应用场景选择适合的数据处理和分析方法。这两种模式都具有允许用户访问的工具,目前结构化数据分析已经有成熟的工具。非结构化数据的数量规模远比结构化数据大,而且用于挖掘非结构化数据的分析工具正处于发展阶段。
非结构化数据在获取信息时并不会对事物进行抽象、归纳等处理,它会获取事物的全部信息。如果直接分析原始数据,而没有对数据进行抽象、归纳等处理,在分析的过程中就会引入大量的错误或者无意义的数据信息,从而会对后续的操作造成干扰。因此,对于特定的应用场景,非结构化数据的价值密度相对较低。随着数据种类的不断增多,非结构化数据的数量规模远比结构化数据大,对于海量的非结构化数据,需要进行存储和分析,从而在数据中挖掘出有价值的信息。
(3)半结构化数据
半结构化数据是介于结构化数据和非结构化数据之间的数据,如标记语言XML文档、JSON文档、电子邮件等。半结构化数据中,数据结构和数据内容混在一起,没有明显的区分,数据自身就描述了其相应的结构模式。这也决定了半结构化数据的数据结构具有自描述性、复杂性以及动态性。半结构化数据的存储多采用非关系型的NoSQL数据库。NoSQL数据库不会将模式结构与数据分开,因此成为存储半结构化数据的更好选择。
3.数据的组织形式
数据的组织是按照一定的方式和规则对数据进行归并、存储、处理的过程。数据的维度就是数据的组织形式,是在数据之间形成特定关系、表达多种数据含义的一个重要的基础概念,根据数据维度关系的不同,数据组织可分为:一维数据、二维数据、多维数据和高维数据。
●一维数据。一维数据由对等关系的有序或无序数据以线性方式构成,在一维方向展开,形成线性关系。数据之间是对等关系,可以用列表、集合、数组表示。
●二维数据。二维数据由多个一维数据构成,是一维数据的组合形式,也称表格数据,一般用矩阵或列表表示。
●多维数据。多维数据由一维或二维数据在新的维度上扩展形成,如数学中平面坐标系在空间维度上扩展为空间坐标系。
●高维数据。高维数据仅利用最基本的二元关系展示数据间的复杂结构,高维数据具有多个独立的属性。
1.1.2 大数据的概念、特点与作用
1.大数据的概念
大数据是一个体量特别大、数据类型特别多的数据集,并且这样的数据无法使用传统数据处理应用软件对其内容进行采集、管理和处理。下面列出几个官方对于大数据的解释。
维基百科对大数据的描述如下:大数据又称巨量数据、海量数据,是指用传统数据处理应用软件不足以处理它们大或复杂的数据集的术语。
麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
随着云计算机的来临,大数据也引起了人们越来越多的关注。中国信息通信研究院2016年发布的《大数据白皮书(2016)》从大数据产业发展概述、大数据技术发展趋势、大数据资源开发与共享、重点行业大数据应用等方面分析了大数据行业的进展。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。图1-2展示了全球全年产生数据量估算图。

图1-2 全球全年产生数据量估算图
2.大数据的特点
大数据的特点可以概括为六个方面。第一,数据量大(Volume),数据从TB级别跃升到PB级别。第二,数据类型多样(Variety),例如,互联网中大量的网络日志、视频、图片等数据信息。第三,数据处理速度快(Velocity),往往需要在秒级时间范围内处理各种类型的数据信息。第四,数据价值密度低(Value),现实中获取的大量数据是未经过处理的,它们的价值是无效或者是很低的,大数据技术就是将这些数据中有用的信息提取出来,挖掘出有价值的数据。第五,准确性(Veracity),数据处理结果要保证一定的准确性和可信赖度。第六,复杂性(Complexity),由于数据量大、数据类型多样、产生速度快,对于数据的处理和分析难度大。
3.大数据的作用
(1)大数据对于思维变革的作用
第一个思维转变:在大数据时代,我们可以分析更多的数据,不再依赖随机采样。随机采样是信息缺乏和信息流通受限制的小数据时代的产物,由于记录、存储和分析数据的工具有限,所以只能通过随机采样来进行分析。小数据时代的随机采样,是用最少的数据获得最多的信息。但当人们拥有了大规模采集和分析数据的能力,面对海量数据,与局限在小数据范围相比,使用全量数据可以为人们带来更高的精确性,也让人们更清楚地看到样本无法揭示的细节信息。
第二个思维转变:人们拥有了海量数据,绝对的精确度就不再是主要的目标。大数据的结构复杂、优劣掺杂,而且并未集中存储在一个服务器上。所以人们不再对某个现象进行刨根问底,只需掌握事物发展的大致方向,适当地忽略微观层面的精确度,在宏观层面上拥有更好的洞察力。
第三个思维转变:不再热衷寻找事物的因果关系,而热衷寻找事物的相关关系。在大数据时代,通过相关关系,可以更容易、更快速地分析事物,通过识别关联物来帮助人们分析和预测未来,如A和B经常一起发生,只需要观察B发生了,就可以在某种程度上预测A也发生了。相关关系虽然无法预知未来,但是只要能预测未来可能发生的事情,就已经极其珍贵了。
(2)大数据对于商业变革的作用
随着大数据的出现,数据的价值正在发生着重大变化,每个数据集都隐藏着某些未被发掘的价值。数据成为有价值的公司资产、重要的经济投入和新型商业模式的基石。数据的价值从最基本的用途转变为未来的潜在用途。它改变了人们看待和使用数据的方式,甚至迫使公司改变商业模式。亚马逊记录下客户购买的书籍和他们浏览过的页面,从而利用这些数据来为客户提供个性化的建议,Facebook(Meta的前身)通过分析用户的“喜好”来确定最佳广告位。
判断数据的价值需要考虑到这些数据在未来可能被使用的方式,而不是考虑当前的用途。一些创新型企业就能够通过提取数据潜在的价值来获得巨大的收益。例如:Farecast利用大量的机票销售数据来预测未来的机票;谷歌重复使用搜索关键词来监测流感的传播。信息对于市场交易来说是必不可少的。当数据的收集不再存在固有的局限性,技术发展到一定程度时,大量数据就可以被捕捉和记录。这些海量数据就成为公司的巨大竞争优势,分析并挖掘出这些数据潜在的商业价值将成为公司的新商业模式。
1.1.3 大数据的技术应用
随着大数据的不断发展,大数据的应用越来越广,帮助人们获取到真正有用的价值,为社会的发展做出更大的贡献。下面简单介绍大数据在不同场景的技术应用。
(1)社会服务
通过采集、处理、分析大量交通数据,能够为城市交通管理部门提供更准确、及时的交通信息,以优化城市道路的使用和管理,改善交通拥堵问题,提高城市交通效率和安全。例如,北京市交通委员会通过实时采集和分析城市的交通数据,开发出了“北京市智慧交通应用平台”,为公众提供实时路况、公交信息、停车场信息等服务。这个平台整合了交通数据、空气质量数据、气象数据等多个数据源,对数据进行清洗、分析、可视化展示,帮助城市交通管理部门预测拥堵情况、优化交通路线、指导城市交通规划。
(2)医疗服务
在对病人进行手术前可以先对病人进行一次身体扫描,大数据技术可以利用此次身体扫描的数据建立一个与病人一样的3D模型。医生在手术前可以先在机器上投射出来的3D模型上进行一次手术的排练,之后再对病人进行手术,这样可以大大提高手术成功率。AI还可以记录多次的手术前的预演以及人们在手术过程中对它的运用,AI代替医生对病人进行手术指日可待。AI还能指导新手医生完成手术,提高医疗水平,解决百姓看病难的问题。
(3)气象领域
在以前,气象监测员采集地方空气数据需要到当地实地采集数据,使用这种方法收集的地方空气数据是很费人力、财力和物力的。有了大数据技术,只需在各个地方设置小型气象监测站,气象监测员只需要观察采集到的数据就可以监测到各处的空气质量,不用像以前那样东奔西跑,同时还可以监督向大气中排放污染物的企业。
大数据对于各行各业的渗透,极大地改变了社会生产方式和人们的生活方式,未来必将会产生重大而深远的影响。