2.2 数据可视化介绍
下面从数据可视化的框架、方法和流程三个方面介绍如何进行数据可视化。
2.2.1 数据可视化的框架
一个完整的数据可视化作品应具备数据处理、图形展示、图形映射、辅助信息四个模块,如图2-1所示。其中,数据处理模块主要用一些数据处理方法对数据进行加工;图形展示模块可决定使用的图形种类;图形映射模块则将数据映射成颜色、位置、大小等图形视觉特征;辅助信息模块用于添加一些辅助信息以帮助读者理解可视化作品。
图2-1 数据可视化的框架
例如,我们在统计某企业的员工年龄分布时,通过数据处理模块对年龄段进行分组、排序等;通过图形展示模块选择图形形状,如可以选择柱形图来展示年龄分布;通过图形映射模块将不同年龄段的柱子用不同的颜色加以区分;通过辅助信息模块调整相应的辅助信息,如加上图例、修改值轴单位等。最终,通过使用这四个模块,我们得到了完整的员工年龄分布可视化结果。
2.2.2 数据可视化的方法
按照不同的分类方式,数据可视化的方法类型也不同。从最终展示方式的角度来说,数据可视化的方法可以分为两类,即统计图表方法和图方法。
1.统计图表
一般来说,数据可视化常用的图形有柱形图、折线图、条形图、饼图、面积图、玫瑰图、环形图、散点图、气泡图、雷达图、股价图、仪表盘、全距图、组合图、地图、甘特图、GIS地图、圆环图、漏斗图、框架图、矩形树图、词云图等。每一大类又细分了多种形态,如柱形图包括堆积柱形图、百分比堆积柱形图、三维柱形图、三维堆积柱形图、三维百分比堆积柱形图等。图2-2所示为常见的统计图表样式示例,从左到右、从上到下依次为柱形图、玫瑰图、组合图、热力图、多系列柱形图、矩形树图、瀑布图、股价图、倒置面积图、多维条形图、对比柱状图、面积图、散点图、气泡图、力学气泡图和试管型仪表盘。
图2-2 常见统计图表样式示例
2.图
图方法也是数据可视化的一种重要方法。需要注意的是,这里提到的“图”与统计图表中的“图”不同,后者主要指带有形状的图形,前者则指描述现实世界中的关系和层级的图,如树状图、图论中的图、思维导图等。
(1)树状图。树状图是一种数据结构,用于表示数据中的层次关系。树由节点和父子关系构成,其按照父子关系从最顶端的根节点(也叫树根)向下展开,形成层次结构。
(2)图论中的图。图论(Graph Theory)是数学的一个分支,它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,并用点代表事物,用连接两点的线表示相应两个事物间具有的特定关系。
(3)思维导图。思维导图又称脑图,是一种图像式的思维工具及一种图像式的思考辅助工具。思维导图使用一个中心关键词或想法引起我们对事物的形象化构造和分类;它用一个中心关键词或想法以辐射线连接所有的代表字词、想法、任务或其他关联项目。
根据可视化需求的不同,选择的数据可视化方法也应不同,其详细的选择过程将在后续章节介绍。
2.2.3 数据可视化的流程
数据可视化的流程可以分为以下五个步骤,但在实际操作中,数据可视化是一个反复迭代的过程,一个优秀的可视化作品需要反复打磨。
1.明确问题
当着手一项可视化分析任务时,第一步要明确待解决的问题,也就是明确希望通过数据可视化实现怎样的目标。清晰的问题和目标能够避免后续过程出现不相关的操作。
2.建立初步框架
明确了问题后,可以根据需要展现的数据选取基本的图形,并拟定可视化的形式,从而建立一个初步框架。
3.梳理关键指标
这一步是要明确传达的信息,确定最能提供信息的指标。这是最关键的一个步骤,在梳理关键指标时,要充分了解数据库及每个变量的含义,必要时要创建一些新指标。
4.选取合适的图表类型
不同的图形所适用的条件也不同,因此,在选择图形时,应针对目标选取最合适的。这样才有助于用户理解数据中隐含的信息和规律,从而充分发挥数据可视化的价值。
5.添加引导信息
最后,在展示数据可视化结果时,可以利用颜色、大小、比例、形状、标签、辅助线等元素将用户的注意力引向关键的信息。例如,辅助线可以让用户快速地感知当前的数据处于什么水平。