2.1 用数据讲故事
在第1章我们简单介绍了数据可视化的概念,即数据可视化用图形化的手段来让数据有效地传达信息。换句话说,数据可视化就是用数据讲故事。我们生活中常见的可视化作品如PPT、书籍中的插图、天气预报图等,它们都在讲故事,都在利用可视化这一方式帮助我们理解数据背后的意义。
2.1.1 数据背后的故事
什么是数据?从专业定义的角度来说,数据是对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。概括来说,数据就是描述客观事物的符号,也就是我们现实世界的一个快照。
数据是一个广义的概念,其形式可以是数字,也可以是具有一定意义的文字、字母、图形、图像、视频、音频等。作为现实世界的一种映射,数据存在实际意义,或者说数据隐藏着故事。但是,数据本身是不会说话的,如果我们不知道自己想了解什么,或者能从数据中了解什么,那么,数据就只是一堆冰冷、枯燥且没有意义的数字或符号而已。
虽然数据本身具有很强的客观性,但数据背后的故事存在关于人的因素。我们会更关心自己所在城市的天气数据,更关心家乡的发展数据,而这些数据对于其他人来说,可能并没有任何意义。正是因为存在人的因素,数据背后的故事才更加重要。例如,“失业率上升5%”和“数十万人下岗失业”所带来的冲击力与情感共鸣是有区别的,前者并不能提供多少背景,而后者则具备更强的背景故事性。
2.1.2 视觉与图形的力量
当我们第一次去某个城市旅游,在多个景点之间轮换时,我们需要利用当地的交通系统:公交或地铁。这时我们会发现,路人的口述指引和网上搜索的一大段文字攻略都不如公交线路图和地铁线路图好用。线路图上不同的颜色表示了不同的路线,这样我们可以明确知道景点所在的位置,知道在哪里上车、在哪里换乘、在哪里下车,判断到达景点大致需要的时间,规划最优的景点游玩路线。庞大的公交系统或地铁系统就这样直观地展示在一张线路图上,传递出大量的信息。
那么,为什么数据可视化能够快速有效地传达数据中的隐藏信息呢?这主要归功于人类视觉与图形的力量。
首先,人类通过视觉接收信息的速度是非常快的。科学家们经过实验发现,人类视网膜能以大约10Mbps的速度传达信息,这一速度是其他感官接收信息速度的10~100倍。
另外,与处理数字不同,人的右脑对图像信息的处理速度非常快,是相同场景下处理数字速度的100倍以上。
这样一来,庞大的信息量通过图片的形式很快地被人接收,正如David McCandless所说,“可视化是压缩知识的一种方式”。
2.1.3 讲什么故事
一个数据可以包含大量的信息,但表现出来的往往只是一个词语、数字、字母,或者图形符号。而借助数据可视化,我们可以提取数据中的信息,了解数据背后的故事。那么,我们利用数据能讲出什么样的故事呢?我们通过可视化可以从数据中发现哪些信息呢?总结来说,我们通过可视化可以从数据中发现关系、规律和异常三类信息。
关系指指标之间的关联关系或因果关系。例如,根据斯诺的霍乱地图,我们可以发现街道水泵和霍乱死亡之间的关联关系,从而判断出被污染的井水是霍乱传播的罪魁祸首。
数据中的规律也是我们比较关心的,例如,可从数据中发现销售额随季节变动的周期性,以及不同时间段网站访问量的波动等。
最后,一些异常的数据也值得我们关注。异常值不一定全是错误值,其有可能是人为造成的或有可能是偶然情况。异常可用于分析原因和监测状态等,例如,制造类企业就经常用到设备状态监测和异常分析功能。