1.1 重新理解数据
到底什么是数据?可能很多人的第一个答案是“数字”,然后可能会给出数据库、数据湖等更专业的描述,或者回复更加具体的某个计算机文件,甚至是Excel电子表格数据。这些都是正确的,但描述得不够精准。因为我们没有办法使用某个具体的实例精准描述或代表一个抽象的概念,所以需要更准确的定义。接下来,我们将会从数据的本质和特性两个角度重新理解数据。
1.1.1 数据的本质
先给出一个麦克斯理解的数据的本质含义:数据是对现实世界的一种描述,每个数据都是现实世界中某个抽象方面的记录。还蛮有趣的吧?在这个定义中并没有指定数据必须是某种具体的形式,甚至都没有提到“数字”这种我们习以为常的概念。不是说数字在数据中不重要,该定义强调的是数据和现实世界的关联。例如,每日的空气质量数据反映的是当天某个地区的空气质量情况,公司财报与相关财务数据反映的是该公司一段时间内的经营情况,手机屏幕的使用时间数据反映的是用户的用机习惯,等等。
至此,你可能会问为什么要这样理解数据。麦克斯想用邱南森(Nathan Yau)在《数据之美:一本书学会可视化设计》(DATA POINTS:Visualization That Means Something)中的一句话进行回答:“数据和它所代表事物之间的关联,既是数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键”。因此,数据本身的形式其实并不重要,重要的是数据反映的是现实世界中的什么事物。在制作图表的过程中,我们需要建立数据与现实世界之间的关联,以便制作图表并从中挖掘出有价值的信息。如果过分关注“数字”本身,就很有可能忽略了这份联系,使图表变成纯粹的数字展现。这也是我们要在开篇跟大家强调数据本质的原因。为了更好地理解这一点,麦克斯找到了一幅制作精良的可视化作品进行辅助说明,如图1-1所示。
图1-1 某神秘的可视化作品
如果你注意到这个图表的名称是“某神秘的可视化作品”并感到奇怪,那么麦克斯告诉你,这是为了不干扰大家理解图表本身。现在大家可以发挥想象力,想想这个图表代表了什么?
可以预计答案是五花八门的,因为图1-1中只呈现了有多种颜色的大量线条,甚至可以使用一些随机数作为基础构建这样的图像。这就是我们所说的“纯粹的数字展现”,因为在我们的脑海中缺少“数据和现实世界之间的联系”这样的关键背景信息,所以我们只能凭借直觉阅读这个图表。
但实际上这幅可视化作品的名称为“科学之路”(Science Paths),图表中的每条曲线都代表一位科研人员在他完整的职业生涯中的成果影响力。在研究完数千位科研人员的职业发展过程后,最终呈现出图1-1中的可视化作品。在提供了相关背景信息,建立好基础的数据与现实世界之间的联系后,我们就可以比较轻松地从图表中得到有用的信息了。在该可视化作品中,一个明显的结论是“科研人员的职业高光可能出现在其职业生涯的任意阶段,其分布是随机的”。此外,随着建立的关联增多,人们对数据集的了解越深入,越容易从数据中挖掘出有价值的信息。
说明:图1-1中的可视化作品由Kim Albrecht团队完成,感兴趣的读者可以在互联网上搜索作品名称和作者,查看完整的作品,观察它的细节,感受它的魅力。因为该可视化作品是可互动作品,所以可以设置筛选条件,控制数据集的大小,以及查看每个数据点的拓展信息,如图1-2所示。
图1-2 Kim Albrecht可视化作品:科学之路(Science Paths)
综上所述,数据是图表制作的基础,可以反映现实世界的某个切片,我们可以利用从现实世界抽象得到的数据制作图表,建立数据与现实世界之间的联系,从而分析和呈现有价值的信息。
1.1.2 数据的特性
本节主要介绍数据的3个通用特性,即稳定度、精确度和完整度。数据的这3个通用特性可以帮助我们在制作图表的过程中更好地把握数据、使用数据。
1.数据的稳定度
用于制作图表的数据集形式多种多样、千变万化,但大部分数据集与时间维度脱不了干系,如常见的销售数据、田野调查观测数据等。即使是本身不重度依赖时间维度的趋势数据集,如反映某次民主选举各方得票的数据,一般也会在制作图表时标记事件的发生时段,以便和其他年份的数据区分开。这是非常正常的,因为数据来源于现实世界,所有事件的发生都离不开基础的时间维度与空间维度。但这与数据的稳定度有什么关系呢?正是因为时间要素的加入,所以数据集可能会发生不同程度的变化,不是说你测量获取的“确定”数值会发生变化,而是在测量后,这个指标数据会随时间发生变化。现实世界是随着时间不断变化的,采用相同的方法在不同的时间获取的数据通常是不同的,数据不一定是“绝对稳定”的。例如,同一个地理位置的交通流量在每个月大体稳定,但具有随机性,不完全相同,并且会随着时间的变化、城市的发展而发生变化。
数据的这种特性给我们一个非常重要的制图启示:“除了数据来源,数据采集时期也是重要的标识,需要在图表中明确标注”。
习惯性标注数据获取的时间信息范例如图1-3所示。根据图1-3可知,图表主体部分所表达的数据信息与时间本身并没有关系,底图反映的是各国儿童教育费用占本国GDP的百分比,而顶图反映的是英国的人口分布情况和不同年龄段的人口拥有房屋的比例。很明显,这两个图表中的数据都不属于趋势数据。但在图表的抬头处,都严格地标明了数据的年份,分别为2013年与2017年。这是因为相同的指标数据会随着时间的变化而变化。
2.数据的精确度
数据的精确度在不同的数据集中有不同的表现。有的数据是极端准确的数据。例如,抛硬币的正反次数,只要在计数时没有失误,其数据就是绝对准确的。有的数据是通过测量、统计,甚至是估算得出的,这类数据的精确度是我们在图表制作和设计过程中需要特别注意的。例如,产品尺寸误差数据集是通过测量获取的,虽然得到的数字是精准的,但因为测量的过程存在误差,所以存在一定的精度损失;各大公司的估值数据通常是利用估值模型和部分事实基础估算得到的,不同的估值人员、采用不同的模型、使用不同的假设参数,都会产生精度损失,在扩大规模、延长估算时间后,这种精度损失会进一步增加。因此,当图表制作使用的数据集具有明显的估算特性时,需要在图表中对数据获取过程,甚至是计算模型、计算方法等进行相应的说明。
图1-3 习惯性标注数据获取的时间信息范例
非精确数据集的特别说明范例如图1-4所示,其中,图①呈现了两组数据,第二组是2060年的预测数据,属于精确度不高的参考数据,因此需要特别说明,在右下方标注Forecast(预测)字样;图②反映的是宗教信仰在不同地区的重要程度,这类数据属于主观意愿较强的不精确数据,因此需要对数据源进行特别说明,在右下方标注来源于2008—2017年的调查数据;图③反映的是在美国总统当政期间的支持率变化情况,因为数据来源于选民,所以在图表制作过程中,采用特殊方法对大量的数据点进行了拟合,此类拟合数据属于有一定模糊程度的统计数据,因此需要对计算方法进行特别说明,在右下方标注使用名为贝叶斯变点分析的特殊平均方法。
3.数据的完整度
数据的完整度是最容易理解的一个特性,因为它反映的是数据集不完整的实操问题。虽然在通常情况下,我们在抓取数据或生产一手数据时,都会按照特定的格式和逻辑生成数据集,但是无法避免一些特殊情况,导致出现数据不完整问题。其中典型的场景是数据历史过于久远而不可考,导致部分数据缺失。例如,要统计全国各省份在过去50年的发电机装机容量数据信息,部分省份的数据可能会因为文档管理问题而缺失。
图1-4 非精确数据集的特别说明范例
遇到这类存在问题的数据集,麦克斯建议的处理方法为如实呈现,对于缺失的部分,需要特别标注说明。在图表制作的过程中,很多读者可能会觉得丢失少部分数据是一个非常严重的问题,想要通过直接抹去缺失项目或使用估算值进行弥补。但这个问题其实不一定会真正影响数据的呈现。需要注意的是,图表制作的目的不完全是将完整的数据呈现出来,更加重要的目标是表达从数据中挖掘的信息和得出的结论。因此只要拥有的数据集足够支撑观点的表达,缺失数据并不会成为一个问题(但依旧要准确注释)。
数据缺失的特殊处理范例如图1-5所示。其中,图①呈现了多个国家2016年的基尼系数,但因为某些特殊原因,德国的数据存在缺失问题,此处使用2015年的数据进行代替,总体并不影响结论的得出(但需要特别注明);图②是此前已经见过的一个图表,中间的小图反映了世界各国中3岁儿童入学率的变化情况,其中的英国部分缺少2010年的数据,因此特别备注“No Data 2010”;图③中的图表不但因缺少精准数据而使用了预估数据(中国部分),而且因为较大范围的数据缺失,所以各国数据均使用1970年及邻近的数据代替;在图④呈现的数据地图中,红蓝区域为有数据区,而白色区域为无数据区。
以上图表均来自《经济学人》杂志中已出版的文章。可以看到,因为数据保存和记录工作的不完善,所以数据缺失是一项无法避免且经常出现的问题。但是它并不可怕,我们可以使用相似数据弥补或使用相关数据代替,甚至可以直接使其空缺(只要不影响结论的得出),但要明确在图表中标明缺失的情况,避免读者误解。
图1-5 数据缺失的特殊处理范例