1.1.1 大数据的内涵与特征
1.大数据与小数据
大数据(big data)是指在一定时间范围内无法用传统数据库软件进行采集、存储、管理和分析的数据集或数据群,只有通过新的处理模式才能体现出的具有高效率、高价值、海量、多样化特点的信息资产。利用数据挖掘分析技术可以使这些结构化、半结构化、非结构化的海量数据产生巨大的商业价值。小数据(small data),或称个体资料,是以个体为中心,需要新的应用方式才能体现出的具有高价值、个体、高效率、个性化特点的信息资产。大数据和小数据有着本质的区别,虽然两者都可以创造数据价值,但是在收集目的、数据结构、生命周期、分析方法及分析重点5个方面均有着不同的定位。
1)收集目的
小数据收集的目的性很强,往往是为了一个目标,制定规划进行收集、整理和分析,不会收集与其研究目的无关的数据。而大数据收集则没有明确的目标,收集的数据范围更广,在数据采集阶段并不明确知道将会产生什么结果。
2)数据结构
小数据的数据基本来自相同的行业和领域,数据种类单一,结构单一,并采取一种有序排列的结构化方式。而大数据的数据来自不同的行业和领域,数据种类多样,数据标准和格式都有所不同,非结构化的数据居多,无法进行统一排序。
3)生命周期
小数据的生命周期比较短,大约只有几年的时间,相关问题解决或相关项目结束,小数据一般会被删除。而大数据的工作主要是进行预测。只有基于完整的历史数据才能对未来进行相对准确的预测。因此,大数据的生命周期相对较长,大部分会被永久保留。
4)分析方法
小数据采用一般的统计方法对收集的所有数据进行分析。而大数据因其复杂性一般通过分布式的方式进行分析,采用训练、学习、聚合、归一化、转化、可视化等多种不同的方法分析。
5)分析重点
小数据是以个体行为数据为对象,主要是对个体数据信息进行全方位的、精确的挖掘分析,重点在于深度。而大数据是以某个群体行为数据为对象,主要是对大范围、大规模的数据处理分析,重点在于广度。
小数据既不涉及大量的、急速的数据,或是繁多的信息种类,也没有隐含与大数据有关的复杂化信息,并常以微观角度解释小型对象。而大数据则基于宏观角度,致力于表述宏观现象。换言之,用大数据得到规律,用小数据匹配个人。
2.大数据的内涵
大数据的概念较为抽象。大数据中的“数据”是指广义的数据,不仅包括传统的结构化数据(可以用二维表格表述的数据),还包括非传统的非结构化数据(如视频、音频等)。大数据中的“大”既形容数据量多,也形容数据产生和变化的速度非常快。大数据的内涵主要体现在数据类型、技术方法和分析应用三个方面。
1)数据类型
大数据不仅包括传统的结构化和半结构化的交易数据,还包括大量的非结构化数据和交互数据。它是包括交易和交互数据集在内的所有数据集,如社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据。
2)技术方法
大数据处理技术的核心是从各种各样类型的数据中快速获取有价值信息的技术,依据大数据的生命周期的不同阶段可以将大数据处理技术分为大数据存储、大数据挖掘和大数据分析三个方面。大数据存储包括直接外挂存储(DAS)、网络附加存储(NAS)、存储域网络(SAN)等存储方式,大数据挖掘主要采用分布式挖掘和云计算技术。
3)分析应用
分析应用重点采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。常用数理统计方法进行数据分析,如可视化的数据分析工具等。在数据分析过程中不仅需要计算机进行自动化的分析,还需要人工进行数据的选择和参数的设定。
3.大数据的特征
大数据具有五个特征,分别为大体量(Volume)、多样性(Variety)、时效性(Velocity)、准确性(Veracity)、价值性(Value),如图1.1所示。
图1.1 大数据的特征
1)大体量
大体量,即数据量大,是大数据的基本属性。大数据一般是指10 TB(1 TB=1024 GB)规模以上的数据量,甚至是数百TB、数十数百PB、EB的规模。资料显示,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB)。导致数据规模剧增的原因有:①传感器等各种仪器获取数据的能力大幅提高,越来越多的事物特征可以被感知,这些特征将会以数据的形式被存储下来。②互联网的普及,使数据的分享和获取越来越容易,无论是用户有意还是无意的分享或浏览网页都会产生大量数据。③集成电路价格的降低,使很多数据被保存下来。国际数据资讯(IDC)公司2020年12月监测,全球数据量大约每两年就翻一番,预计到2035年,全球将拥有约2142ZB的数据量(见图1.2),并且85%以上的数据以非结构化或半结构化的形式存在。
图1.2 IDC全球数据量使用情况及预测
2)多样性
数据多样化是大数据的第二大特点。大数据包括各种格式和形态的数据。传统的数据大多是以二维表格的形式存储在数据库的文本类结构化数据。随着互联网的发展和传感器种类的增多,诸如网页、图片、音频、视频、微博类的未加工的半结构化和非结构化数据越来越多,以数量激增、类型繁多的非结构化数据为主。非结构化数据相对于结构化数据更加复杂,数据存储和处理的难度更大。目前,我国商业银行业务发展相关数据类型已从结构化数据扩展到非结构化数据。
3)时效性
大数据的时效性是指在数据量特别大的情况下,能够在一定的时间和范围内得到及时处理,这是大数据区别于传统数据处理最显著的特征。大数据的流动速度快,当处理的数据从TB增加至PB时,超大规模的数据快速变化,使用传统的软件工具则难以处理。只有对大数据做到实时创建、实时存储、实时处理和实时分析,才能及时、有效地获得高价值的信息。
4)准确性
大数据的准确性是指保障处理的结果具有一定的准确性。结果的准确性涉及数据的可信度、偏差、噪声、异常等质量问题,原始数据的输入错误、缺失以及数据预处理系统的失效等均会导致数据的不准确,进而通过分析会得出一些错误的结论。因此,保障正确的数据格式对大数据分析十分重要。
5)价值性
大数据的价值性是指大数据包含大量有深度的信息,对大数据的分析挖掘和利用将产生巨大的商业价值。但是,数据量呈指数增长的同时,隐藏在海量数据中的有用信息却没有按照相应比例增长;相反,价值密度的高低常常与数据总量的大小成反比。这样反而使我们获取有用信息的难度加大。以商业银行监控视频为例,连续数小时的监控过程中可能有用的数据仅在几秒钟内产生。
大数据的以上特征表明大数据不仅数据量巨大,种类繁多,而且对大数据的分析将更加复杂,更加追求速度,更注重时效性、准确性以及价值性。大数据不仅意味着数据总量的快速增长,其更大的意义在于:通过对大容量数据的交换、整合和分析,及时识别与发现新的知识,创造新的价值,带来“大知识”和“大发展”。作为一种重要的战略资产,大数据开启了一次全新的、重大的时代转型。
4.大数据与传统数据的区别
大数据是以数量巨大、类型众多、结构复杂的数据集合以及基于云计算的数据处理和应用模式,通过数据的集成共享、交叉复用形成的智力资源和知识服务。大数据与传统数据在产生方式、存储方式、使用方式等方面都有所不同。
1)产生方式
传统的数据是根据研究目的进行采集的,采集的数据具有重要性。由于监管要求、业务逻辑或者技术便利等具有优势,大数据具有“自产生”的特点,不需要特别的采集过程,比如搜索数据、交易数据等,尽管有些数据可能并没有价值。
2)存储方式
大数据的规模远远大于传统数据的规模。相对于传统数据库,量变引起质变,需要新的数据库技术来支持存储和访问。新型的大数据存储系统除了要具备高性能、高安全、高冗余等要求之外,还需具备虚拟化、模块化、弹性化、自动化等要求,以满足具备大数据的应用需求。
3)使用方式
传统数据是基于样本思维进行采集的,其分析方法主要基于概率论理论和抽样理论。通常是通过这些样本数据推断总体,很难从这些数据中提炼出超出研究设计的知识。而大数据则是基于全体思维,所采集的数据基本能够代表整体,通过人工智能、神经网络等讲求高维和高效率的分析技术可以从这些详尽的数据中得出有价值的规律和知识。
5.大数据的产生背景:计算机技术与互联网的发展
随着计算机的快速发展和互联网应用的成熟,数据量急剧增加,人类进入大数据时代。数据的采集、传输、存储、整合、管理、挖掘、分析等各项技术快速发展。以计算机技术与互联网技术为支柱的信息技术为大数据的产生提供了必要的硬件基础和软件支撑。
1)计算机技术的发展
1946年,第一台电子计算机的诞生开启了人类社会信息技术革命的序幕。在经历了电子管数字计算机、晶体管数字计算机、集成电路数字计算机和大规模集成电路数字计算机等发展历程后,计算机技术逐渐走向成熟。1971年世界上第一台微处理器在美国硅谷诞生,开创了微型计算机的新时代。1977年美国苹果公司推出了Apple二代计算机,大获成功,1981年IBM推出了IBM – PC并逐渐占领了个人计算机市场,此后个人计算机开始普及。现如今,个人计算机在晶体管数量上已经可以达到上亿个,运算速度也能达到亿万次/秒,诸如并行、流水线、高速缓存和虚拟存储器等概念也成为了现实。个人计算机走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,为大数据的诞生提供了硬件基础。
2)互联网技术的发展
1969年,美国国防部研究计划署制定的协定将美国加利福尼亚大学洛杉矶分校、斯坦福大学研究学院、加利福尼亚大学和犹他州大学的4台主要的计算机连接起来,标志着现代计算机网络诞生。此后,互联网经历了文本、图片、语音、视频阶段,带宽不断变快,功能越来越强大,这是人类迈向地球村坚实的一步。
互联网的普及带来了第二次信息化浪潮,它不仅改变了传统的信息传播方式,也改变了人们的生活习惯。获取信息变得更加容易,足不出户便可了解世界新闻;沟通更加便捷,QQ、微信等网络工具将人们时刻联系在一起;购物消费更加容易,利用手机或电脑上网就可以快速实现商品交易。因此,互联网的发展不仅是一场信息革命,也是社会变革。根据第50次《中国互联网络发展状况统计报告》,截至2022年6月,中国网民规模达10.51亿人,其中手机网民规模占比高达99.6%,互联网普及率达74.4%。网民行为因为互联网的发展更加多元化,文本、图片、音频、视频、地理位置等信息已经成为大数据增长最快的来源。
2008年,“云计算”这个技术名词开始流行起来,它是一种基于互联网的计算方式,共享的软硬件资源和信息可以按照需求提供给计算机和其他设备。云计算阶段,计算机能力可以作为一种商品通过互联网进行流通。企业和个人不再需要购买昂贵的硬件,只需通过互联网来购买或者租赁计算能力,为所使用的计算功能付款。云计算可以通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再由多部服务器所组成的庞大系统搜索、计算分析之后将处理结果回传给用户。通过这项技术,远程的服务供应商可以在数秒之内,达成处理数以千万计甚至亿计的信息,为大数据分析与处理提供技术支撑。
大数据与计算机技术和互联网的发展相辅相成。大体量的数据采集、存储、管理和挖掘因计算机和互联网技术的快速发展得以实现,数据的来源越来越丰富,形成信息流;大数据的信息流又通过社会生活和商业模式带动着资金流和物流的发展,进一步推动计算机与互联网技术的改进。大数据与计算机和互联网技术相互作用,相互促进,共同发展。