你真的拥有全部数据吗?
顾客推着满满的购物车,来到超市付款台。激光扫码器扫过每件商品的条形码,电子仪器发出“哔哔”的声音,付款台计算总价格。一系列操作之后,顾客拿到购物清单并付款离开。但这并不是真正的结束。记录被购物品及其价格的数据,被发送到数据库并储存下来。之后,统计学家和数据科学家将仔细研究这些数据,从顾客所购物品的细节中发掘客户行为模式,包括购买了哪些商品,哪些商品形成购物组合,什么样的顾客买了这些东西,等等。这里肯定不存在数据丢失的可能性吧?超市要想知道应该收取顾客多少钱,就必须掌握交易数据,除非出现停电、登记失败或欺诈等情况。
现在看起来很明显,已收集的数据就是存在的全部数据了。这些数据不仅仅包含某些交易信息、某些被购物品的细节,它们是这家超市里所有顾客对所有物品的所有交易记录。这就是我有时会提到的“数据=全部”。
但是,真的是这样吗?毕竟,这些数据显示的是上个星期或上个月发生的事。这些虽然有用,但是,如果我们负责超市运营,那么我们真正想知道的可能是明天、下个星期或下个月会发生什么。我们真正想知道的是,在未来,何人会在何时购买何物,以及购买多少。哪些东西可能会被抢购一空?什么品牌更受顾客欢迎?我们真正想得到的是那些没有被测量出来的数据。第7种暗数据:因时而变,揭示了时间对数据造成的复杂影响。
事实上,除了这个复杂的问题,我们可能还想知道,如果我们储存不同的商品,或者在货架上以不同的方式摆放商品,或者改变超市营业时间,人们会有什么样的反应。这些被称为反事实,因为它们与事实相反。它们关注的是,如果实际发生的事情没有发生,那么将会怎么样。反事实就是第6种暗数据:或可存在的数据。
毫无疑问,反事实不仅仅是超市经理关心的问题。你以前一定有过服药的经历。你信任给你开药的医生,你确信那些药经过测试已被证实在缓解某些病症方面是有效的。但是,如果你发现这些药并未经过测试,或者没有确切数据显示该药能否改善病情,或者事实上它们还有可能加重病情,那么,你会怎么想?如果它们经过测试被证实对治疗有帮助,但是服药的效果并未与不服药的情况进行对比,无法证明服用该药比自然康复好得更快,或者该药并未与其他药进行比较,证明这种药比其他药更有效,那么,你会怎么想?在驱象粉的案例中,将撒驱象粉与什么都不撒做比较,马上就能揭示问题:不撒驱象粉的效果和撒驱象粉的效果是一样的。(而这反过来又会让我们意识到,那里根本就没有大象需要驱赶。)
回到“数据=全部”这个概念上来,在其他情况下,我们想获得“全部”数据的想法明显很荒谬。比如,你的体重是非常容易被测量的,用你浴室的体重秤就可以测量。但是,如果你反复测量,那么,即使在间隔非常短暂的测量结果之间,也会出现一定的细微差别,尤其是当你想把测量结果精确到最小单位盎司或克的时候。所有物理测量都会出现某种潜在的不准确性,这源于测量误差或者微小的环境变化导致的随机波动(第10种暗数据:测量误差与不确定性)。为了解决这个问题,科学家在测量某些物理量(比如,光速或电子的电荷)的大小时,会多次测量,取其平均数。他们可能会测量10次或100次。但是显然,他们不可能做到所谓“全部”次数的测量。在这种情况下,“全部”是不存在的。
当你乘坐伦敦的红色巴士时,会发现另一种不同类型的暗数据:你知道它们常常挤满了乘客。然而,数据显示,巴士的平均载客量只有17人。怎么解释这个明显的矛盾?是不是有人在操控数据?
稍加思考就会明白,原因很简单,巴士越满,乘车的人越多——这就是“满”的含义。结果,更多人只看到了满载的巴士,而没有乘客的巴士没有被人看到(当然,没有把司机考虑在内)。这个例子展现的是第3种暗数据:局部选择案例。而且,这种模式甚至是数据采集的一种必然结果,这展现了第4种暗数据:自我选择。下面是两个我常爱说起的例子,它们代表两种含义相反的极端情况。
第一个例子来自动画片的情节。片中的一个人物,正在看火车站外面摆放的某个地图。地图中间有一个红色的小圆点,旁边标明“这里是你现在的位置”。“怎么会这样?”这个人想,“他们是怎么知道的?”他们之所以知道,是因为他们意识到,每一个正在注视这个红点的人都必须站在这个地图前面。这个人是一个被精准选择的样本,在选择的过程中必然会过滤掉站在其他地方的所有人。
这个例子的要点在于,只有当某个人或某个事物,比如某种测量工具,去收集数据的时候,数据才能呈现出来。这个例子的第二个极端表现可以用人择原理来描述:从本质上说,宇宙不得不呈现出现在这个样子,否则,我们就无法在这里观测到它。我们无法获得不同宇宙的数据,因为我们不可能在那些宇宙中存在,所以也无法从中获取数据。这意味着,我们获得的任何结论,都以我们的宇宙(类型)为限:正如路面坑洞一样,可能还有很多事物并不为我们所知。
这对科学来说是很重要的一课。你的理论相对于你的数据可能非常完美,但你的数据是有局限性的。它们可能不适合非常高的温度,不适合较长的时间或较远的距离。你的理论如果超越了你在数据获取方面的极限,就可能会崩塌。基于良性运转环境数据的经济理论,在经济衰退周期中就会失效。牛顿力学定律在涉及微观物体、超高速度或其他极端情况时也会失效。这就是第15种暗数据:推理僭越数据揭示的本质。
我有一件T恤衫,胸前的图案是两个卡通人物的对话。第一个卡通人物说:“我以前认为,相关性意味着因果性。”在下一个对话框里,他继续说:“自从上了统计学课程,我就不那么想了。”第二个卡通人物接着说道:“看来课程起作用了啊。”第一个卡通人物回答:“嗯,或许吧。”7
相关性仅仅意味着两个事物一起发生变化:例如,正相关意味着当一个事物变大的时候,另一个事物也变大;当第一个事物变小的时候,第二个事物也变小。这与因果性是有区别的。如果第一个事物的变化导致了第二个事物的变化,那么前者可称为后者的原因。然而,麻烦在于,两个事物可以同时变化,但并非一个事物的变化导致了另外一个事物的变化。比如,对早期学校教育的研究显示,平均来看,单词量越大的儿童,身高越高。但是,你不能据此认为,那些希望后代长得更高的父母,应该雇用家庭教师来扩大孩子的单词量。更大的可能性是存在某些未被测量的暗数据,正是第三种因素(比如孩子的年龄)导致了这种相关性。当漫画中的卡通人物说“嗯,或许吧”的时候,他承认统计课程使他的认知发生了变化,但是或许还存在其他原因。这种情况被归结为第5种暗数据:关键因素缺失。
现在,我已经提到了不少暗数据类型,还有更多类型我暂时没有提到。本书的目的就是揭示它们,展示它们如何得到确认,观察它们造成的影响,阐释如何应对它们导致的问题以及如何利用它们。本章结尾处列出了暗数据的清单,具体内容将在第10章中予以总结。