
1.7 数据可视化Tips
1.7.1 数据
1.数据的定义
什么是数据?下面是关于数据的两种定义。
“数据(Data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。”
“数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。”
在现实世界中,数据无处不在,我们生活在一个处处都是“数据”的时代。一个数据不仅是数字,而且是现实世界的一个记录、一个快照。
比如,在网上购物,何人、何时、何地购买了何物,这些是数据;证券交易,哪一个资金账户,在什么时候交易了什么股票,这些是数据;一个电话,传输的声音信号、通话的时长、通话的时间,这些是数据;一张照片,由大量的图像像素组成,这张照片的某个位置的某个像素是什么颜色,这些是数据,更重要的是,这张照片还包含了5W数据,即谁(Who)、什么时候(When)、什么地点(Where)、做了什么(What)及为什么(Why)。这些数据中包含了大量的信息。
所以,数据是对现实世界的一种简化、一种抽象的表达。那么,数据和我们之间是怎样的关系呢?又是如何影响我们的呢?
我们和数据之间是一个双向的关系。我们在使用数据的同时,也是数据海洋中的一部分。我们每天的活动,如发送微信、接打电话、地图导航、搜索信息、上传视频、发博文、查看物流信息、订外卖、收快递、打出租车等,这些交互行为创造了批量的数据。这些数据会和其他人的数据汇集在一起,被汇集到一起的数据彼此之间又有交互,从而引起连锁效应,反过来影响我们,并且影响我们周边的环境。
因此,对数据进行研究,从数据中找出模式、关联、趋势和规律,能够帮我们做出更好的决策并指导行动,从而创造一定的经济价值和社会价值。可视化就是表达数据,并找出数据中的模式、关联、趋势和规律的一种方法。
2.数据和信息
数据可以是狭义上的数字,也可以是具有一定意义的文字、字母、数字符号的组合,还可以是图形、图像、视频、音频等。数据以抽象的方式表示了客观世界中事物的属性、数量、位置及相互的关系。例如,“1、2、3……”“物流情况”“通讯录”“北京、上海、杭州”等都是数据。
数据是采集的原始素材,粗略且没有经过加工。数据的表现形式有数字、文字、字母等,这些表现形式只有结合了数据的解释才有意义。数据的解释,也被称为数据的语义,是对数据含义的说明。例如,96是一个数据,可以是某门功课的成绩,也可以是某个人的血压值;“牛”“羊”可以是某种动物,也可以是某个人的生肖属相;30可以是某天的气温,也可以是某人的年龄,还可以是某公司某部门的人员总数等。数据只有有了语义,才是有意义的。
具有语义的数据经过加工处理,去除冗余的数据后,提炼出来的有用的内容才是信息。信息必须进行数字化转换,变成数据后才能够存储和传递。信息的表现形式和载体是数据。信息和数据之间既相互联系,又有着明显的区别。
从数据中提取信息并不是一件简单的事。数据有时不太精确,有时会变动,有时还会和周围的事物有着密切的关系。在提取信息的过程中,只有仔细观察数据产生的来龙去脉,关注整个数据集的全貌,才不会一叶障目、以偏概全,曲解了数据的含义,遗漏了数据所包含的真正有用的内容。
3.数据的存储
数据的存储形式和存储介质是不同的,存储形式有电子表格、文本、数据库等,存储介质有磁介质、光介质和固态介质等。在如今的信息时代,数据的存储不再困难,大量的数据被存储在数据中心或数据仓库。数据中心通常会占用大量的空间,拥有成排的机架,以及在机架上堆叠起来的计算机。数据中心的计算机又叫服务器,这类计算机的处理器性能强、空间大,可以存储并处理海量的数据。
在计算机科学中,数据以二进制0、1的形式来表示,最基本的数字存储单位是位(Bit)。由8位(Bit)可组成1字节(Byte),1000字节(Byte)可组成1千字节(Kilobyte)、1000000字节(Byte)可组成1兆字节(Megabyte)等。
计算机中的数据可以是连续的值,比如声音、图像,被称为模拟数据;也可以是离散的,如符号、文字被称为数字数据。如今,计算机存储和处理的对象十分广泛,用来表示这些对象的数据也变得越来越复杂。这些数据包括结构性数据和非结构性数据。结构性数据,指的是能用一致的结构来表现的数据,如常见的数字、符号等。这类数据在逻辑上可以用数据库的二维表结构来表达,并且可以被存储在数据库中。非结构性数据,指的是无法用一致的结构来表现的数据,如图片、视频、音频、各类报表等。这类数据在逻辑上不能用数据库的二维表结构来表达。
据估计,现今的数据中有95%的数据是非结构化的、复杂的数据,幸运的是,随着计算机技术的蓬勃发展,出现了越来越多的工具和方法,让这些数据的加工和处理,以及让隐藏在这些数据背后的信息的提炼和汇总,变得不再那么困难。
1.7.2 可视化
1.可视化的定义
有数据才有可视化,可视化是对数据的抽象,而数据又是对现实世界的抽象。由此可推出,可视化是对现实世界的抽象的抽象。这样的表述虽然有些复杂,但说明了要完成一个好的可视化设计,需要从复杂的现实世界中进行两次抽象提取,这并不是一件容易的事。
可视化虽由来已久,但直至目前,对它的定义仍众说纷纭。可视化是一种工具还是一种媒介?可视化是统计图表还是数字艺术?可视化是展示数据还是探索规律?不同的人群可视化的目的不同,针对的数据对象不同,对可视化的理解自然也会不同。
也许,我们只需要把可视化看作一种方法,一种探索、展示、表达数据含义的方法即可。统计图表、数字艺术、分析数据、唤起情感,不同的场景有着不同的应用,这些都可以归为可视化的范畴。在可视化设计过程中,如果不具备统计学的知识,那么作品将只是插图和美术,数据不能展现出它的意义;如果不具备设计学和美学的知识,那么作品将只是枯燥的结果分析,而不能更有效地传递信息,并且激起读者探索的兴趣。甚至于,有些糟糕的设计和配色会直接导致用户反感和放弃。所以,许多优秀的可视化作品都是综合地运用统计学、设计学及美学得来的。
2.可视化目前的应用
数据可视化就是依据数据的特性,选择合适的可视化方式,将数据直观地展示出来,帮助用户通过认识、理解数据的含义,发现这些数据背后隐藏的关联、模式和规律,并在实际生活中进行应用。
如今,在不同的领域,数据可视化被广泛地应用。
在商业领域,最常见的案例是电商平台通过记录消费者浏览消费平台的数据,结合数据挖掘、数据分析、数据管理等应用技术,对消费者进行特征分析。通过这些分析,商家可以更好地制定营销策略,并且开发出更有针对性的产品。
在城市治理领域,可视化让城市变得智慧,让城市的数据变得可知可感。智慧城市的数据可视化平台,将一个城市的全景呈现在一个基于地理信息系统的平台上。通过将城市运行核心的各项关键数据进行可视化,智慧城市可以帮助管理者优化配置、整合各类资源并提供决策支持,从而达到改善经济、产业、生态结构,提高城市运行效率的目标。智慧城市的应用领域包括基础设施、应急指挥、城市管理、公共安全等。在智慧城市的建设中,可视化系统是重中之重。可视化系统的设计质量和应用水准,直接影响智慧城市项目的综合效能和使用效果。
除智慧城市外,目前可视化被广泛应用的领域还有智慧公安、智慧园区、智慧航空、智慧交通等。
3.可视化应具备的特性
一个优秀的可视化作品一般具备以下特性。
(1)应建立在对数据的深刻分析和理解上。对原始数据了解得越多,对数据的来龙去脉和背景资料就越清晰,对数据和它所代表的事物之间的了解就越深刻,才能够制作出有价值的数据图表。花一些时间去了解数据代表现实世界中的什么,以及应该在什么样的背景下解释它,才能够加倍地提升可视化的效果。
(2)数据是波动的、带有不确定性的,是有着不同形状和大小的。好的可视化能够排除数据中无用的干扰部分,帮助观察者快速地理解并把握身边实时的或非实时的重要内容。好的可视化能够将数据中的错误,如异常值、离散值、突发事件等,通过视觉形式直接、快速地呈现在观察者的面前,引起观察者的注意并采取相应的措施。
(3)便于阅读且十分精确。能够让观察者获得全新的视角,理解以前未曾考虑过的问题,并且去探索数据背后隐藏的模式和规律。
(4)可以让观察者既能看到宏观的内容,也能关注微观的细节,从而帮助观察者做出合理的决策。
(5)能够化繁为简。好的可视化可以通过简单的视觉反馈来表现复杂的问题,哪怕基于复杂的数据集合,界面的设计也能做到简洁、清晰而不失深度。
(6)内容一致,尊重事实,灵活多变。好的可视化可以通过反复迭代调整,来适应不断变化的需求和不同的用户环境。其中,不同的数据集可以采用不同的迭代周期。
4.可视化面临的问题
目前,数据可视化所面临的问题如下。
(1)收集和导入的数据很有可能没有正确的格式、条目,或者数据有遗漏等。如何保证数据的准确性和完整性?如何减少数据整理的工作量?这些问题都是数据可视化前必须要考虑的。
(2)如何对多个源的数据进行整合?很多时候,只有把不同地方的数据源整合在一起,判断才有意义。查找什么样的数据?如何获取和快速访问这些数据?如何把这些不同类型的数据汇集在一起?如何存储和处理这些不同类型的数据?多类型、多来源的数据在进行可视化前都必须解决这些问题。
(3)在处理大量数据时,如何保证实时的交互性?当数据有数百万条时,可视化的显示速度必定会有延时,用户很难获得实时的体验。
(4)如何将数据可视化和数据挖掘结合并付诸应用?数据可视化是通过视觉来观察、假设和探索规律的,而数据挖掘是通过统计算法、机器学习等方法来发现模式和规律的。一些模式可以通过适度的可视化呈现出来。在可视化的过程中,如果结合数据挖掘,也可以发现许多微妙的趋势。如何将这两种方法有机地结合起来并应用,是数据可视化研究的一个方向。
(5)如何将数据可视化和分析推理技术结合并付诸应用?可视化常用来支持评估、计划和决策,与分析推理技术结合后,可以帮助管理者提升洞察力和分析能力。管理者可以通过追溯证据的起源、与多人交流推理等方式,来验证所做决策的合理性。