鲜活的数据:数据可视化指南
上QQ阅读APP看书,第一时间看更新

1.2 我们要寻求什么

要讲故事,没问题。那么,到底应该怎样用数据来讲故事呢?自然,具体细节会因为数据的不同而有所差别,不过总体来说,不管图形表现的是什么,我们都需要留心观察以下两件事情:模式和相互关系。

1.2.1 模式

事物会随着时间的流逝而变化。我们都会老去,青丝变白发,视力不复从前(见图1-5)。产品的价格会上下浮动,品牌的商标逐年更换,各种行业新老交替。变化有时突如其来、毫无征兆;有时则十分缓慢、难以察觉。

图1-5 喜剧化地看待衰老

无论观察的对象是什么,变化本身可以和变化的过程一样妙趣横生。这里探究的正是随时间推移而变化的各种模式。比如在观察股票价格时,它们自然会有增有减。但每天的变化量是多少?每周或每个月的变化量又是多少?是否在某个时期内股票的波动会异于往常?如果是,其原因何在?是否有某些特殊的事件引发了这些变化?

如你所见,由某一个问题出发会带来更多的问题。并不是只有时间序列数据会这样,所有类型的数据都是如此。努力探索数据背后的含义,你就会发现更多有趣的答案。

我们也可以用不同的方式来拆分时间序列数据。有时需要按天或小时来显示数值,有时则更适合以年或月为单位。前者的时序图会显示出更多杂点,而后者则偏向于呈现总量。

使用过网站分析工具的人可能会比较认同这一点。以日为单位来监测网站流量时,图表就会起伏不平,存在很多波动,如图1-6所示。

图1-6 FlowingData网站的每日独立访客量

而当我们以月为单位来观测时,图表上涵盖同样时间跨度的数据节点就会减少,显得更加平滑,如图1-7所示。

图1-7 FlowingData网站的每月独立访客量

我并不是说某个图表比另一个要好。事实上它们是相互补充的。如何拆分数据则取决于你需要(或不需要)多少细节。

当然,我们寻求的不仅是随时间而变化的模式。还有很多有关总量的模式能帮助我们对团体、人或事进行比较。你每周会吃什么食物、喝什么饮料?美国总统在每年发表国情咨文时通常都会谈论哪些内容?有哪些州倾向于投共和党的票?对于后面这个问题,按地区性来寻找模式显然会更有帮助。尽管问题和数据类型各有不同,但我们的处理方式是相似的,这在后面几章中就会看到。

1.2.2 相互关系

你是否见过那种包含了一大堆图表、看上去像是随意堆砌的数据图?这种图表似乎丢失了某种特别的东西,就好像是设计师敷衍了事、赶在最后期限到来之前匆匆完成的作品。一般来说,这种特别的东西就是图表相互之间的关系。

在统计学中,它通常代表的是关联性和因果关系。多个变量之间应该存在着某种联系。第6章将详述这些概念以及可视化的方法。

不过在更为抽象的层面,抛开各种等式或假设检验不谈,我们完全可以在视觉上对数据图进行设计,用于比较和对照各种数值和分布。这里有一个简单的例子,摘自我的作品World Progress Report(世界发展报告)中有关科技的部分,如图1-8所示。

图1-8 全球范围的科技采用

World Progress Report是一份有关全球发展对比的图形化报告,数据来源于UNdata。请访问http://datafl.ws/12i浏览完整版本。

我使用了直方图来表现每100个居民中互联网用户、互联网订购者和宽带用户的数量。请注意互联网用户的跨越幅度(从没有用户到每100居民中有95位用户)比其他两个数据集要宽得多。

最方便的办法自然是让软件根据数据的多少来自动设定每一个直方图的幅度。但是,尽管没有任何国家的互联网订购者或宽带用户达到95%,我仍然赋予每一个直方图以相同的幅度。这能让读者一目了然地比较各群体间的分布情况。

当你需要处理很多不同的数据集时,请尝试将它们进行分组,而不是当做互不干涉的单独元素来看待。这样能够产生更加有趣的结果。

1.2.3 有问题的数据

在数据中寻找故事时,我们应该对自己所看到的保持质疑态度。记住,决不能只因为它是数字就相信它就是正确的。

我必须承认,数据检验无疑是我在数据图制作过程中最不喜欢的一步。我的意思是说,当某个人、组织或服务机构为你提供一大堆数据时,本应该由他们来确保所有数据都是真实可信的。但这同样也是一位优秀数据图形设计师的分内之事。毕竟,可靠的建筑师不会用劣质水泥来为房屋奠基,所以我们也不要用劣质的数据来构建自己的数据图。

也许数据检验与核实不是数据图设计中最重要的部分,但它绝对是其中不可或缺的部分之一。

基本上,我们要注意的是那些不太对头的东西。也许是因为在数据输入时出现了失误,某人多添或者遗漏了一个零;也许是在数据收集时网络出现了问题,有些字节被随机移动到了其他地方。无论原因是什么,如果任何东西看上去有些异常,我们就需要到源头去进行验证。

提供数据的人通常都会对数据所表现的普遍状况有所认识。如果你自己就是收集数据的人,自问一下这是否说得过去:所有地区在某方面的指标都只有10%~20%,而某个地区却达到了90%。那里是不是出了什么问题?

大部分异常都只是笔误而已,但有些异常却真的存在,而它们就是有意思的地方,可以作为故事的重点。如果你遇到了异常,一定要确定它到底属于前者还是后者。