大数据时代的互联网架构设计
上QQ阅读APP看书,第一时间看更新

第二章 大数据处理流程与系统架构

第一节 大数据处理流程

传统的互联网与商业数据的存储和处理主要使用关系型数据库技术,数据库企业巨头Oracle是这一时期的代表企业。随着大数据时代的到来,传统关系数据库在可扩展性方面的缺陷逐渐暴露出来,即使采用并行数据库集群,最多也只能管理一百台左右的机器,而且这种并行数据库要有高配置的服务器才可正常运转,可以想象其管理海量数据的成本有多高。

很多应用场景,尤其是互联网相关应用,并不像银行业务等对数据的一致性有很高的要求,它们更看重数据的高可用性以及架构的可扩展性等技术因素,因此NoSQL数据库应运而生。作为适应不同应用场景要求的新型数据存储与处理架构,它对传统数据库有很强的补充作用,而且应用场景更加广泛。Yahoo公司部署了包含4000台普通服务器的Hadoop集群,可以存储和处理高达4PB的数据,整个分布式架构具有非常强的可扩展性。NoSQL数据库的广泛使用代表了一种技术范型的转换。

大数据处理的目标是从海量异质数据中挖掘知识,处理过程包含数据源收集、数据存储管理、数据分析与挖掘以及数据展现与获取等几个按顺序进行的步骤。图2-1是大数据处理流程的整体架构。从图中可看出,在大数据处理的过程中,形成了数据流处理的多个不同层次。

图2-1 大数据处理流程的整体架构

一、数据的产生

在一些人的观念里,大数据和大型企业如百度、腾讯、阿里巴巴这些互联网巨头才有关系,而与中小型企业似乎关系不大。这其实是一个误区,本书作者认为无论是大型企业还是中小型企业,都与大数据有关。任何一个企业只要将日常点点滴滴的数据,如一个文件、一张照片、一段讲话都集中存储起来,就能够为企业的统计、分析、决策提供数据依据。这些集中起来的数据都可以被称为大数据。对于智慧经济时代中的企业而言,大数据就是要让企业自觉地将数据看成一种资产、一种能力,不是单单在“大”上做文章,而是强调企业应依据数据来做判断和决策,促进企业从“粗放经营”模式向“智慧经营”模式转变。

观念转变了,那么企业的大数据来源就不言自明了。它可以来源于企业现有的信息系统、企业每一个员工的工作终端和工作用的手机、企业的客户、网络上对企业的各种评论,以及与企业相关的工商、税务、电信、电力等方面的信息。企业的大数据,按来源途径可分为主体、客体和社会三种。

(一)来自主体的大数据

这里的主体包括企业管理者、企业员工、企业客户、企业的协同单位、企业的竞争对手、企业上级管理部门、企业与社会公共服务组织(如电力、电信、银行等部门)、企业的信息系统等。企业的信息系统是一个重要的主体,它记录了企业在业务行为过程中的详细信息,是企业大数据的主要来源。除了企业的信息系统之外,其他主体产生的信息往往是被企业忽视的部分,在企业建立大数据系统时,这部分被忽视的信息是需要被重视起来的。

企业管理者产生的信息包括企业的规划、计划、总结、报告等信息,这些信息有一些是被存储在信息系统中的,也有很多只是存储在企业管理者的个人电脑上的。这些信息往往对统计分析具有很大价值,所以企业需要建立一套在线的文档管理系统把这些信息管理起来。

企业员工产生的信息包括工作总结、个人随想、个人议论,以及工作时的照片、图片等,这些信息大多存储在个人电脑上,或是个人的博客、微博、QQ等外部的信息系统中。企业竞争对手的信息一般都会被重点研究,但研究手段大多比较落后或不够体系化。竞争对手的信息可以来自其自身网站或其他媒体,企业需要建立采集机制,将竞争对手的信息分门别类地存放起来并在工作中加以应用。

社会公共服务组织如电力、电信、银行、水务等部门,都是与企业经营有直接和间接关系的组织。这些组织提供的信息有时会非常重要,比如,一个客户的经营情况好不好,可以直接通过这个客户的电费单、话费单来找到答案。这些部门的网站上都有一些对客户的这方面信息的披露,所以通过技术手段获取此类信息对分析客户的经营情况具有一定的帮助。

上面对各个主体的大数据的分析,可以在企业进行大数据建设时提供一种获取数据来源的思路,企业还可以按照这种分析方式进一步扩展获取大数据的渠道,以使大数据的来源更加完整和全面。

(二)来自客体的大数据

这里的客体主要是指企业生产的产品。未来的产品大多都会具有物联功能,企业根据这些物联功能发回的信息,就可以分析出该产品当前在哪里、运行状态如何、哪些功能是用户常用的,并可以依据这些分析制定客户的服务策略、新产品的改进策略等。企业的产品按照是否能主动回传信息,可以分为有源产品和无源产品。

有源产品是指有动力来源的产品,一般多为电器设备,如电冰箱、电视机、ATM机、刷卡设备等。这些产品可以内嵌信息发送设备,从而将产品的位置、状态、操作行为等信息,传送回企业,以便企业进行相应的分析。这些发送回的信息可以是结构化的或者是半结构化的,基于精度设计要求其信息计量单位可大可小,如高清的摄像头,其每次回传的信息量就非常大,可以是几兆字节或者更大。这些信息发送的频度都是预先设置的,可以为每秒几十帧或者是几秒一帧,在一段时间内可以产生大量的信息,所以对于有源产品产生的信息,需要在数据存储上做单独的设计。

无源产品是指没有动力来源的产品,一般多为衣物、药品、食品等。对于无源产品,一般是将电子标签贴在产品的表面,借助有源设备来进行信息的采集。无源产品虽不像有源产品那样会实时产生大量的信息,但由于其数量庞大,同样也会产生大量的信息。依据有源设备采集的无源产品信息,可以知道产品当前的位置信息和时间信息,从而可以统计产品的地域分布和使用状态。

(三)来自社会的大数据

这里的社会主要是指行业协会、媒体、社会公众等。这些组织或群体主要是站在全局角度、公众角度和个人角度对企业的各类事项进行统计、分析和评论的,往往会对社会公众、企业形象的认知起导向作用。一个企业会因为一个好评而得到社会公众的认同,从而迅速发展,也会因为一个差评而遭受灭顶之灾。

行业协会一般都是一些半官方机构,每年会定期发布一些行业发展中存在的问题和未来发展趋势的报告。这些报告具有较高的价值,对企业研究行业动态、找准企业自身在行业中的地位极有帮助。这部分信息是企业应该重点关注并作为大数据的一个重要构成部分的。

媒体也是一个重要的大数据来源渠道。媒体会对企业、企业的产品、消费者的诉求等各方面给出评论,这些评论对企业来说至关重要。有一些媒体报道是客观的,也有一些是主观的。关注这些媒体的报道可以让企业提前做好各种应急措施,以便在事件发生时占据主动权。

社会公众可以在QQ、微信、微博、博客、论坛等公众媒体上进行各种信息的传播,这些媒体的影响面非常广泛。企业应高度关注与企业相关的信息,并建立相应的机制,对信息进行分类处理。未来企业在经营活动中,不仅要善于利用新媒体进行企业品牌和产品的宣传,而且还要学会如何对这些信息进行统计和分析。因此社会公众的信息采集也是企业搜集大数据的重要手段。

二、数据的存储

企业的各类数据集中起来后,其数据量庞大。和以往统一将这些数据集中存放在一个大的磁盘阵列中不同,现在需要将它们存储在多台计算机上,这是因为这些数据不仅要存起来,还要能随时被使用。采用分布式方式将这些大数据存放在计算机设备上,以便可同时在多台计算机上对其进行并行处理。按照数据的结构不同,可以将大数据分为非结构化的大数据、结构化的大数据和半结构化的大数据,分布式文件系统、分布式数据库系统和数据流处理系统分别是针对这三类数据的存储方式。

(一)非结构化数据存储

常见的非结构化数据包括文件、图片、视频、语音、邮件、聊天记录等,和结构化数据相比,这些数据是未抽象出有价信息的数据,需要经二次加工才能得到有价信息。由于非结构化数据具有不受格式约束、不受主题约束、人人随时都可以根据自己的视角和观点进行创作生产的特点,所以其数据量要比结构化数据大。

随着各种移动终端的普及和移动应用的不断丰富,非结构化数据呈指数态迅速增长。近年来,这些数据已成为统计分析和数据挖掘的一个重要来源,逐渐被越来越多的企业所重视。比如,在公安领域,随着“平安城市”工程的不断推进,城市的各个角落都安放着摄像头,这极大地震慑了犯罪分子,预防了犯罪行为的发生。在案件发生后,公安人员可以根据摄像头拍摄的图像信息还原犯罪分子的活动轨迹和使用的作案凶器,有助于对案件的侦办。再如,在金融领域,为了控制借款人可能产生的借贷风险,很多金融企业建立了专门的队伍收集借款人的财务信息、法务信息、法人信息等,并对这些信息进行分析,根据分析结果调整风险等级,主动避免风险。

非结构化数据对各行各业的价值都极大,所以进行有针对性的采集和存储是一件非常有意义的事。由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、分析意义大等特点,所以要为了分析而存储,而不能为了存储而存储。为了分析而存储,就是说存储的方式要满足分析的要求,存储工作就是分析的前置工作。当前针对非结构化数据的特点,均采用分布式方式来存储这些数据。这种存储非结构化数据的系统也叫分布式文件系统。

分布式文件系统将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理与分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、打开文件数等方面的限制问题。目前常见的分布式文件系统通常包括主控服务器(或称元数据服务器、名字服务器等,通常会配置备用主控服务器,以便在出故障时接管服务)、多个数据服务器(或称存储服务器、存储节点等),以及多个客户端(客户端可以是各种应用服务器,也可以是终端用户)。

分布式文件系统的数据存储解决方案归根结底是将大问题划分为小问题。大量的文件均匀分布到多个数据服务器上后,每个数据服务器存储的文件数量就少了。另外,通过使用大文件存储多个小文件的方式,能把单个数据服务器上存储的文件数降到符合单机能处理的规模;对于很大的文件,可以将其划分成多个相对较小的片段,存储在多个数据服务器上。

(二)结构化数据存储

结构化数据就是人们熟悉的数据库中的数据,它本身就已经是一种对现实已发生事项的关键要素进行抽取后的有价信息。现在各级政府和各类企业都建有自己的信息管理系统,随着时间的推移,其积累的结构化数据越来越多,一些问题也显现出来,这些问题大致可以分为以下四类:

(1)历史数据和当前数据都存在于一个库中,导致系统处理越来越慢;

(2)历史数据与当前数据的期限如何界定;

(3)历史数据应如何存储;

(4)历史数据的二次增值如何解决。

第一和第二个问题可以放在一起处理。系统处理越来越慢的原因除了传统的技术架构和当初建设系统的技术滞后于业务发展之外,主要是对于系统作用的定位问题。从过去40年管理信息系统发展的历史来看,随着信息技术的发展和信息系统领域的不断细分,是时候要分而治之来处理问题了,即将管理信息系统分成两类,一类是基于目前的数据生产管理信息系统,另一类是基于历史的数据应用管理信息系统。

数据生产管理信息系统是管理一段时间频繁变化数据的系统,这个“一段时间”可以根据数据增长速度而进行界定,比如,银行的数据在当前生产系统中一般保留储户一年的存取款记录。数据应用管理信息系统将数据生产管理信息系统的数据作为处理对象,是数据生产管理信息系统各阶段数据的累加存储的数据应用系统,可用于对历史数据进行查询、统计、分析和挖掘。

第三和第四个问题可以放在一起处理。由于历史数据量规模庞大,相对稳定,其存储和加工处理与数据生产管理系统的思路应有很大的不同。和非结构化数据存储一样,结构化数据的存储也是为了分析而存储,并且采用分布式方式。其目标有两个:一是能在海量的数据库中快速查询历史数据,二是能在海量的数据库中进行有价信息的分析和挖掘。

分布式数据库是数据库技术与网络技术相结合的产物,在数据库领域已形成一个分支。分布式数据库的研究始于20世纪70年代中期。世界上第一个分布式数据库系统SDD-1是由美国计算机公司(CCA)于1979年在DEC计算机上实现的。20世纪90年代以来,分布式数据库系统处于商品化应用阶段,传统的关系数据库产品均发展成以计算机网络及多任务操作系统为核心的分布式数据库产品,同时分布式数据库逐步向客户机/服务器模式发展。

分布式数据库系统通常使用体积较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS(Database Management System,数据库管理系统)的一份完整的副本,并具有自己局部的数据库。位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。

分布式数据库系统应具有以下一些主要特点:

(1)物理分布性:数据不是存储在一个场地上,而是存储在计算机网络的多个场地上;

(2)逻辑整体性:数据物理分布在各个场地,但逻辑上是一个整体,它们被所有的用户(全局用户)共享,并由一个主节点统一管理;

(3)灵活的体系结构,适应分布式的管理和控制机构;

(4)数据冗余度小,系统的可靠性高,可用性好;

(5)可扩展性好,易于集成现有的系统。

(三)半结构化数据存储

半结构化数据是指数据中既有结构化数据,也有非结构化数据。比如,摄像头回传给后端的数据中不仅有位置、时间等结构化数据,还有图片这种非结构化数据。这些数据是以数据流的形式传递的,所以半结构化数据也叫流数据。对流数据进行处理的系统叫作数据流系统,数据流系统是随着物联网技术的不断发展而产生的新的信息领域。

随着物联网技术的发展,人们对产品这一客体的智能化程度的要求越来越高。产品已经由一个不能产生数据的物品变成了一个可以产生数据的物品,原来只能通过人机交互产生数据,现在物联交互也能产生大量的数据,并且物联交互产生的数据比人机交互产生的数据频度更高、单位时间内的数据量更大。物联交互不仅带来了新的数据来源,而且带来了新的数据处理问题。比如,大量涌入的物联数据在很长一段时间内都是重复的数据,如果将这些数据原封不动地进行存储,那么其消耗的存储设备容量将是惊人的,也是资金投入所不能承受的。

对于数据流,数据不是永久存储在传统数据库中的静态数据,而是瞬时处理的源源不断的连续数据流。因此,对这种新型数据模型的处理应用也逐渐引起了相关领域研究人员的广泛关注。在大量的数据流应用系统中,数据流来自分布于不同地理位置的数据源,非常适合分布式查询处理。

分布式处理是数据流管理系统发展的必然趋势,而查询处理技术是数据流处理中的关键技术之一。在数据流应用系统中,系统的运行环境和数据流本身的一些特征不断地发生变化,因此,对分布式数据流自适应查询处理技术的研究成为数据流查询处理技术研究的热门领域之一。

三、数据的分析与挖掘

传统的管理信息系统可以定位为面向个体信息生产,供局部简单查询和统计应用的信息系统。其输入是个体少量的信息,处理方式是在系统中对移动数据进行加工,输出是个体信息或某一主题的统计信息。而大数据信息系统定位为面向全局,提供复杂统计分析和数据挖掘的信息系统。其输入是TB级的数据,处理方式是移动逻辑到数据存储、对数据进行加工,输出是与主题相关的各种关联信息。对比这两个信息系统,可以发现它们主要有以下三点区别:

(1)传统的管理信息系统用于现实事项的数据生产,大数据信息系统是基于已有数据的应用的;

(2)传统的管理信息系统是对移动数据做线性处理,大数据信息系统是应用移动逻辑来并行处理的;

(3)传统的管理信息系统注重信息的简单应用,大数据信息系统面向全局做统计分析和数据挖掘应用。

传统的管理信息系统和大数据信息系统的对比如表2-1所示。

表2-1 传统的管理信息系统和大数据信息系统对比

前文分析了大数据从哪里来、存在于哪里等问题,本节又分析了传统的管理信息系统与大数据信息系统的不同之处。正是这些不同之处决定了企业大数据的加工过程的不同。大数据的加工首先从分析和挖掘模型建立开始,也就是说,要先弄清楚想要什么,采用什么计算方法;其次将分析和挖掘模型转成逻辑可移动并能并行处理的程序编码,以便对分布式的大数据进行加工;最后将计算结果放在全局数据背景中呈现,让用户能基于图形一眼看出其态势,而非采用面对结构化数字的晦涩的表达。企业大数据加工过程模型如图2-2所示。

图2-2 企业大数据加工过程模型

大数据加工过程由分析和挖掘模型设计、并行处理程序编码、计算结果在全局中呈现三个工作活动构成。

(一)分析和挖掘模型设计

“大数据”,大约从2009年开始才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年会翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯地指人们在互联网上发布的信息。全世界的工业设备、汽车、电表等装有无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质变化方面的信息,同时也产生了海量的数据。

大数据已经在那里了,人们能用它做什么?一些互联网企业开始利用手中掌握的大数据,对用户的消费习惯、兴趣爱好、关系网络进行分析和挖掘,分析和挖掘的成果给这些互联网企业带来了新的价值。

(1)进一步巩固优势:基于分析结果给用户提供更精准的服务,进一步拉开与竞争对手的差距。

(2)扩展了新的服务:社会化媒体基础上的大数据挖掘和分析又衍生出很多新的应用。

(3)拓展了新的领域:基于手中的大数据和已掌握的分析方法,一些互联网企业正在成为营销咨询服务商和各类情报供应商。

互联网企业的这种发展模式,对于很多传统企业具有很强的借鉴意义。它告诉人们不仅要掌握庞大的数据信息,而且要对这些具有意义的数据进行专业化处理。专业的处理方法包括统计建模、机器学习、数据建模等。

(1)统计建模是利用统计知识,认为大数据是遵循总体分布规律的,按照统计的方法可以准确地把握企业当前的态势,并可以按照时间维度预测企业未来的发展。

(2)机器学习是将大数据当成训练集,通过贝叶斯网络、支持向量机、决策树等算法对有价值的信息进行挖掘,比如,Netflix通过机器学习来预测观众对影片的评分,从而制定影片上映和发行的策略。

(3)数据建模是将数据模型看成一个复杂查询的答案,利用部分数据来推算总体的态势。数据建模可以采用两种方法:一种是数据汇总,另一种是特征提取。数据汇总包括PageRank形式和聚类形式,特征提取包括频繁项集和相似项两种类型。

上述方法中,前两种方法分别把大数据看成了总体样本数据和局部训练数据。基于总体样本数据可以做出准确的态势分析和对未来的预测,而基于局部训练数据则可以面向未来做出假说演绎。最后一种方法,数据建模,是一种基于现有数据分析问题的方法。比如,PageRank可以根据用户请求返回用户期望度最高的页面,再如,采用聚类方法可以准确定位城市某种流行病的发源地及其原因。

总的来说,利用分析和挖掘模型设计,一来可以得到总体在空间上的分布状态和时间上的变化趋势,以便面向未来做出预测;二来可以通过个体在空间和时间上的差异与相似性,找出问题的原因,以便做出决策。

(二)并行处理程序编码

并行处理程序编码是一项很复杂的工作,但随着技术的发展和开源运动的不断普及,这项复杂的工作已经变得非常简单。人们只需按照MapReduce编程模型编程,并将程序发布到并行计算系统上,就可以实现对大数据的并行处理。为了能够更深入地理解并行处理程序,这里有必要简要回顾一下集群计算的并行架构、MapReduce编程模型、函数代码与模型设计关系、移动逻辑还是移动数据这四个方面的知识。

1.集群计算的并行架构

大部分计算任务都是在单处理器、内存、高速缓存和本地磁盘等所构成的单个计算节点上完成的。传统的并行化处理应用都是采用专用的并行计算机来完成的,这些计算机含有多个处理器和专用硬件。然而随着近年来大规模Web服务的流行,越来越多的计算都是在由成百上千的单个计算节点构成的集群上完成的。与采用专用硬件的并行计算机相比,这大大降低了硬件开销。

集群计算是遵循“分而治之、以量取胜”的思想来架构的,也就是把多个任务分解到多个处理器或多个计算机中,然后按照一定的拓扑结构进行求解。这种架构是一种时间并行和空间并行混合的应用模式,是各种并行模式中效益最好的一种。当前集群计算的并行架构已广泛应用在天气预报建模、超大规模集成电路(Very Large Scale Integrated Circuit, VLSI)的计算机辅助设计、大型数据库管理、人工智能、犯罪控制和国防战略研究等领域,而且它的应用范围还在不断地扩大。

2.MapReduce编程模型

现在MapReduce编程模型已经有多种实现系统,如Google和Hadoop各自开发的MapReduce的实现系统。人们可以通过某个MapReduce的实现系统来管理多个大规模的计算,同时能够保障对硬件故障的容错性。程序员只需要编写两个称为Map和Reduce的函数即可,剩下的就是由系统来管理Map和Reduce的并行任务及其任务间的协调。基于MapReduce的计算过程如下。

(1)有多个Map任务,每个任务的输入是分布式文件上的一个或多个文件块。Map任务将文件转换成一个键值(Key-Value)对序列。输入数据产生的键值对的具体格式由用户编写的Map函数代码决定。

(2)作业控制器从每个Map任务中收集一系列键值对,并将它们按照键值的大小进行排序,进而这些键又被分到所有的Reduce任务中,所以具有相同键值的键值对会归到同一个Reduce任务中。

(3)Reduce任务每次作用于一个键,并将与这些键关联的所有值以某种方式进行组合,具体组合方式取决于用户所编写的Reduce函数代码。

3.函数代码与模型设计关系

Map函数的输入数据产生的键值对格式和Reduce函数的键值组合方式都由用户所编写的函数代码决定,而这些函数代码采用的格式或组合的依据就是分析和挖掘模式设计中的具体内容。

比如,人们设计一个关于文档中单词重复数量的计算模型,在Map算法中,模型的要求是基于每一行对单词进行一次计数,然后将同样的单词计数进行归类,而在Reduce算法中则要求对同样的单词进行总和计算并给出排序。程序员根据模型的要求,实现Map算法中对每一行单词进行计数和将同样的单词计数进行归类的程序编码,实现Reduce函数中对同样的单词进行总和计算并给出排序的编码。

可以说,分析和挖掘模型的设计就是Map和Reduce的函数概要设计,而Map函数和Reduce函数是分析和挖掘模型设计的代码的具体实现。

4.移动逻辑还是移动数据

移动逻辑还是移动数据是对数据可变还是逻辑可变的另一种表述。如果数据是可变的,那么就移动逻辑到数据端处理;如果逻辑可变,则移动数据到逻辑端处理。对于数据或逻辑的不变性认知是分布式系统和非分布式系统的核心区别。MapReduce主张逻辑不变而数据可变,所以移动逻辑到可变的数据端中;而传统的管理信息系统主张逻辑可变而数据不变,所以移动数据到可变的逻辑端中。

大数据运算的一个思路就是传递逻辑,而不传输数据。这一思路依赖的条件是逻辑的子过程的分拆是可能的、可控的。在类似MapReduce的方案中,MapReduce Jobs的执行就具有类似的特点。也就是说,必须关注这样一个事实:数据不动,而逻辑在动。

(三)计算结果在全局中的呈现

用户经常会根据不够精确的、模糊的或者是不能表达出的条件对大型文件集合进行探索或查询,如果还是采用树形目录方式,其查询效率和效果是可想而知的。为了解决这个问题,奥地利Graz大学为大型文档库设计了一个名为Infosky的可视化工具。Infosky可视化工具可以对存放层次达15层、有6900个类别的10多万份文件进行展现,用户可以借助该系统轻松地对层次结构中成百上千甚至上百万的文件进行可视化查看,也可以平滑地引入信息空间的全局和局部视图,为浏览和搜索提供明确易懂的交互信息。而这一切的实现借助的正是信息可视化这一新的计算机科学技术。

近年来,随着大数据的兴起,用户面临着信息过载的严峻考验。如何帮助用户更快捷有效地从大量数据中提取出有用的信息,成为信息可视化的核心任务。信息可视化主要是利用图形技术对大规模数据进行可视化表示,以增强用户对数据更深层次的认知。信息可视化由数据描述、数据表示和数据交互三个部分构成。数据描述就是对各种数据进行视觉化的描述,如采用不同的线条、点和叉等。数据表示关注的是描述的内容如何得到显示,及其如何呈现给用户,数据表示会受到显示空间的限制和时间的限制。数据交互涉及一系列动作,不仅包括单击鼠标的物理动作,还包括对所见进行解释,增加了心理模型的认知成本。

上面的实例分析和对信息可视化技术的简单介绍主要是想说明在大数据环境下,数据的表现方式需要在传统的单一表格和图表方式基础上再提升一个层次,要能让用户基于图示感受到大数据的存在,感受到其查询的部分与整体间的关系。