数据如何误导了我们
上QQ阅读APP看书,第一时间看更新

第一章
大数据分析的先驱:南丁格尔

她永远无法忘记那些只剩一副骨架的英国士兵。他们躺在腐烂的木质简易床上,身上虱蚤横行,而后一个接一个地死去。

这间人满为患的医院,曾是一座屠宰场,同时也是弗洛伦斯·南丁格尔在克里米亚战争期间工作过的地方。战争的一方是俄罗斯帝国,另一方是大英帝国、法兰西第二帝国、撒丁王国和奥斯曼帝国。1854年年底,南丁格尔开始担任东部斯库台军营(今属伊斯坦布尔)的护士长。然而,当时英军的护理工作实在是毫无章法,以至于在完成本职工作的基础上,她还要做饭、洗衣和管理仓库。有时,她甚至要一天工作20个小时。几个星期后,因为实在无暇打理,她剪短了自己浓密的棕色长发。她的黑裙子也渐渐变得脏兮兮的,白帽子上还破了一个洞。每次吃完饭,她还得争分夺秒地写信向外界求援,只为挽救伤兵们的生命。

但这些还远远不够,有太多生命从南丁格尔的指尖流走。她在一封给英国战争大臣西德尼·赫伯特的信中绝望地写道:“我们每天都在埋葬死人。”最严重的时期是1855年2月,被送来医院的士兵死亡率甚至超过了50%。他们大多数并非死于战伤,而是死于那些本可以避免的感染。医院的下水道严重堵塞,地下变成了一个巨大的污水坑;从厕所里排出的粪便流回到了水箱里。这些情况必须有所改变。

与此同时,由于在克里米亚战争中表现糟糕,英国内阁在一片声讨中黯然倒台。新上任的首相亨利·约翰·坦普尔决定收拾这个烂摊子。为防止更多的士兵死在斯库台军营,他成立了一个“卫生委员会”。在南丁格尔抵达斯库台军营4个月后的1855年3月4日,援助终于到达。

卫生委员会认为,医院的恶劣环境已经达到“可致人死亡”的地步,随即下令整顿。南丁格尔清理了超过25具动物尸体(其中一具腐烂的马尸还堵住了供水口)。为了达到更好的通风效果,她在医院屋顶上凿洞开窗。她还粉刷了白墙,拆除了烂掉的地板。到1856年克里米亚战争结束时,整个斯库台军营医院的面貌已焕然一新:干净整洁,管理有序,死亡率急剧下降。其中,除了卫生委员会的功劳,南丁格尔的工作至关重要。若不是她的积极游说,卫生委员会很可能永远也不会来斯库台军营。因此,当南丁格尔返回英国时,她受到了英雄般的欢迎,人们称她为“守护天使”。

然而,南丁格尔却觉得自己是个失败者。离开军营后,她在日记中写道:“噢,那些曾忍受着伤痛咬牙坚持的可怜孩子,我觉得自己是个不称职的母亲。我回家了,却把你们留在了克里米亚的坟墓中。”

那些无辜逝去的生命、拥挤不堪的病房和肆意爬行的虱蚤,却一直在她脑海中挥之不去。斯库台军营医院的环境的确改善了,但军中的医务护理工作却依旧杂乱无章。这同样会导致死亡。

于是,南丁格尔下定决心要为改变这一切而战斗。她想用她的经验、人脉和新晋的“明星”身份向当权者证明改善卫生环境的重要性,而在这场战争中,她用到了一样关键的利器——数字。

数字风潮的诞生

南丁格尔于1820年出生在一个富裕的英国家庭。她的父亲理念新潮,认为女子要和男子一样接受优良的教育。于是弗洛伦斯·南丁格尔和她的姐姐,同样以出生地命名的帕耳忒诺珀·南丁格尔,都学习了意大利语、哲学、物理和化学这四门课程。

南丁格尔还学习了一门与她一生紧密相关的学科——数学。从幼时起,她就痴迷于计数和分类。7岁开始,她在写给别人的信中还常常会附上一些清单和表格。她对益智类书籍中与数字相关的谜语也有极大的兴趣,比如:“假设世界上有6亿外邦人口,若每2万人就需要一位传教士的话,总共需要多少位传教士?”

南丁格尔从未丢掉过自己的数字天赋和对数字的兴趣。当她1856年从克里米亚回国后,英国国防大臣问起她那边军营的情况,她便抓住了这次机会。在那份耗时两年完成的多达850页的报告里,她用数字展示了军中护理工作出现的问题。其中最重要的结论是:许多士兵的死亡本是可以避免的,比如那些死于伤口感染和传染病的人。相对而言,即便在和平时期,英国部队医院中伤兵的死亡率也比普通民众要高出近两倍。这等于是在杀人,南丁格尔认为“这就相当于每年把1100个人带到索尔兹伯里[5]平原上枪毙掉”。

尽管这条结论如此骇人听闻,但南丁格尔更担心的是,人们会被报告中数百页的字母与数字淹没。于是,她决定将统计出的数据绘制成彩色图表,让大家一目了然。在南丁格尔最著名的两幅示意图中,她以月份为单位,展示了克里米亚战争两年间士兵的死亡情况。随着时间的推移,她发现那些本可以避免的疾病成了军营中大多数人的死因。

南丁格尔把这两幅示意图和其余图表一起寄给了那些有影响力的人物,比如前内阁大臣、调查克里米亚战争的时任皇家委员会委员长西德尼·赫伯特。同时,南丁格尔还将她的研究发现透露给了媒体,并恳请作家哈丽雅特·马蒂诺女士为此撰写一篇文章,向大众阐述改革的必要性。

东部军队死亡原因统计图
注:收录于南丁格尔所著的关于英军护理情况的长篇报告中。
资料来源:《影响英军健康、效率与医院管理问题摘要》(1858年)

最终,南丁格尔用她的数据说服了当局者。到1880年时,之前的许多问题都得到了妥善解决:伤兵们吃得更好了,能洗澡的地方变多了,他们的营房也更干净了。由于军中护理的情况得到了改善,病人们很快便都痊愈出院了,因此新建的医院就显得空空荡荡的。南丁格尔对此冷冷地回应:“病人的数量急剧下降,导致部队医院里的人空闲得很,这又不是我们的错。”

弗洛伦斯·南丁格尔是世界上最早用图表显示数据变化的人之一。她聪明、勤奋又固执己见,这一点毋庸置疑。同时,她取得的成就也得益于她所生活的年代。19世纪,人们在历史上第一次开始广泛使用数字,而这一趋势一直延续到今天。

19世纪,“民族国家”这种意识形态诞生,官僚机构越来越多,对公民信息的需求量也越来越大。谁死了、谁出生了、谁和谁结婚了——这些信息直到19世纪才开始被大规模地记录下来。哲学家伊恩·哈金把这种发展称为“印刷数字的大雪崩”,而在技术研究员梅格·莱塔·安布罗斯看来,这就是“大数据的雏形”。

贫困率、犯罪率、荷兰中央统计局(CBS)……你每天在报纸上读到的这些平均值和图表,追根溯源都是从大约200年前的19世纪开始的。

而这些并非凭空出现。要弄明白为什么南丁格尔和她同时代的人开始(并可以)大规模地使用数据,我们还得继续深挖历史,去了解数字风潮诞生之前的三个重要发展阶段。

数字标准化

从远古时代开始,人类就会计数了。现存最早的书面记录里就包含了表示数字的符号。在乌鲁克古城(今属伊拉克),有一块公元前3400—前3000年的泥板,上面写着“29086单位大麦37个月库辛”。这句话最有可能的解读是:“在37个月间,总共收到29086单位的大麦。由库辛签核。”

历史学家尤瓦尔·赫拉利这样写道:“很遗憾,人类史上的第一个文本不但不是哲学巧思,不是诗歌,不是传奇,不是法律,甚至也不是对王室歌功颂德,而是无聊至极的财经文件,记录各种税务、债务以及财产的所有权。”这点当然很重要,因为在一个社会的发展历程中,数字起着尤为关键的作用。

在原始社会时期,人类可以在脑子里记下一切有用的信息,比如哪儿有食肉野兽出没,哪种果子有毒,哪个人值得信任。到了农业社会时期,一小块地区内的农民依旧可以将生活需要的信息记在大脑中。但从农业革命起,人们开始大规模地合作,组成城市,甚至组建国家。社会的经济模式逐渐变得复杂;货币交易的出现,取代了之前的以物易物,而后慢慢扩大,形成了一个越来越错综复杂的经济关系网。例如,你欠了甲的钱,但你又是乙的债主,同时你还必须向丙支付租金。于是,人类大脑渐渐不够用了,再也不能把所有信息都记在脑子里。

对于一个要向数千居民征税的城邦而言,这点尤为重要。官员需要通过书面记录来登记和管理收到的款项名目及时间。先写下口头协议,接着将其合法化,之后记录下谁做了何事,最后再上交行政部门处理。这样,人类就再也不需要通过大脑记录信息了。跟此前的库辛和大麦的例子一样,大部分被书面记录下来的信息里都包含了数字。

在数字最初发展的过程中,人类不单单记录数字,还得记录数字表示的内容。让我们再回过头去看一下那块古老的泥板上的字:29086份。在当时的情况下,让库辛记录下这些的人不仅要确认数字是“29086”,还得充分认识“份”这个单位概念。

在历史上绝大部分的时间里,测量单位的标准都十分本地化。每个地方都使用对当地来说最方便的单位。比如,法国就曾用“比雪雷”和“乔纳利尔”作为土地计量单位。比雪雷指农民播种这块土地需要的谷物数量,乔纳利尔指一台葡萄收割机一天内可工作的土地面积(在现代语言中,我们依旧可以找到那些古老的测量单位的痕迹,比如一箭之遥、步步为营等)。就算两个地区使用相同的单位,单位背后的含义也可能千差万别。17世纪时,荷兰格罗宁根省的埃津厄使用“鲁德”作为长度单位,1鲁德约合现在的5米。而在距离其70千米的贝灵沃尔德,他们的1鲁德还不及埃津厄1鲁德的一半。据估计,仅仅在18世纪的法国就有25万种不同的长度和重量单位。

正如两个人不说同一种语言就不能交流,若双方采用不同的数字用法,那么就无法达成共识。1999年的一件事足以证明,没有一门通用的数字语言,后果会有多么严重。那一年,美国“火星气候探测者”号卫星本应飞抵火星,并绕其飞行,但它却在1999年9月23日从雷达上消失了,并且永远无法找回。这件事是如何发生的呢?原来,要把探测卫星发射至火星,需要两台电脑合作完成。其中一台电脑使用的是英制单位里的“磅力/秒”进行计算,而另一台却采用国际通用的公制单位“牛顿/秒”。这次沟通上的失误,导致探测器的飞行轨道比预期低了170千米,最终很可能是火星灼热的大气层焚毁了卫星。

幸运的是,如今这种问题只是个别案例了,因为现在世界上几乎每一个国家都采用国际单位制。但这样的变革在当年肯定少不了一番斗争,有的甚至需要革命。法国大革命(1789—1799年)之后,革命党人决定废除所有地方计量单位。他们提出公制单位的设想,而这恰恰和当时科学家们的想法不谋而合,并且,这样还能让他们更好地管理国家。

比方说,革命党人想按土地面积征税,但国内每个人都有一套自己的距离单位,那税该怎么征呢?这场变革持续了一段时间,最终成功地将公制单位的概念(后来的国际单位制),从法国推广到了世界上绝大多数国家。现在只有3个国家——美国、利比亚和缅甸——仍旧使用英制单位,即质量单位为“磅”,长度单位为“英里”,等等。

这是人类在南丁格尔的思想基础上取得的第一个进展:将数字标准化。换句话说,我们在如何衡量一个特定的概念上达成了共识。“米”和“千克”只是一个开端。19世纪70年代,人们对于数字信息的需求量变得极大。这是因为在19世纪,大量农村人口迁徙到了城市,各类问题变得集中且明显:贫困、犯罪率和疫病。这些问题都是从哪儿来的?我们该如何解决它们?不管是政府人员还是平民百姓,越来越多的人都开始思考答案。

为了衡量这些问题的严重性,首先我们必须将它们分好类,一个人在什么情况下才算是贫穷、犯罪或生病了呢?例如,之前为南丁格尔的报告提供过帮助的英国著名统计学家威廉·法尔,就曾与同事们一起列出了一份公认疾病的清单。这份清单最终被世界卫生组织(WHO)所采纳。南丁格尔为了展示士兵的死亡原因,在她的图表里也使用了以下分类:1.可预防的疾病;2.战争时受的伤;3.其他原因。

“疾病”或“死亡原因”这些词,看起来似乎和数字没什么关系,但事实并非如此。只有当一项名目有了准确的定义时,它才可以被量化显示出来,正如哲学家哈金所言:“数字是需要被归类的。”

通过将数字标准化,人们终于可以使用同一种数字语言了。今天,世界各地都在谈论米和千克、GDP增长和IQ数值、二氧化碳排放量和千兆字节,等等。所以说,世界上使用人口最多的语言不是中文、英语或西班牙语,而是数字。数字语言的形成也为接下来的进展提供了可能:大规模数据采集。

大规模数据采集

正如那块库辛的泥板所示,人类采集和记录数据已经有几千年的历史了。但库辛的例子只是小范围的。历史学家们猜测,他可能只是一名负责存储酿酒原料的仓库管理员。随后的几千年里,各国都在大规模地采集数据。在我们的文化中,耶稣诞生是最著名的一则故事。但倘若当时古罗马人并不想了解自己的帝国有多少居民,那这则故事也就不会发生在伯利恒了[6]。从古埃及到印加帝国,从中国的汉朝到中世纪的欧洲,这样的人口普查在各国历史中均有发生过。

英格兰诺曼王朝第一任国王威廉一世在1085年则更进一步,他希望将所有英国人的资产都注册在案。《末日审判书》里就记载了英格兰和威尔士超过13000个地方的数据。当时,每个地方都要接受一小群公务员的检查。这些人在每个郡都写下了超过10000条记录,例如一块土地的所有者是谁,其所拥有的奴隶、磨坊和鱼塘的数目,等等。真的难以想象,这么大的任务究竟耗费了多少时日。

像《末日审判书》这样大规模的数据采集行为,在很长一段时间内只是个特例。直到1820—1840年,可用的数据信息才开始呈指数型增长。这段时间,各式各样的数据采集机构相继成立,它们之中大部分是为国家政府服务(荷兰语里表示统计的单词“statistiek”就和表示国家的单词“staat”有那么点儿关系)。1836年,英国政府成立了英格兰和威尔士注册总署,专门负责登记公民的出生和死亡状况,随后便开始开展人口普查。荷兰第一次人口普查发生在拿破仑时期的1795年。除了政府之外,也有许多俱乐部开始采集会员的数据资料。英国东印度公司就存有自1823年4月起,为大约2500名员工记录的档案,包括谁得病了,谁死了和谁离职了,等等。

南丁格尔在19世纪中叶为了改善军中护理状况而使用数字的想法,随着时间的推移最终演变出了一种结果:数据采集无处不在。但数字若想真正给人类的生活带来变化,还缺少最后一个步骤。因为采集到成堆的数据是一回事,能够了解数据背后的意义又是另一回事。

数据分析

如今,人们读报纸时常常能看见各式各样的图表。但是,把数字用图表的方式展现出来,这个想法还是相对比较新的。18世纪末,条形图和折线图才被英国人威廉·普莱费尔创造出来。后来,南丁格尔为了引起他人对军中护理困境的重视而选择图表,就是因为图表能将大量的数据一目了然地快速展示出来。

19世纪初期,随着采集到的数据越来越多,人们自然需要更多的方法去分析处理这些数据。除了图表以外,算平均值的做法也变得流行起来。南丁格尔在她那厚厚的一沓报告中就广泛使用了平均值,比如克里米亚战争期间的月均伤患人数。

不管平均值这个概念在现在看起来是多么稀松平常,在南丁格尔那个年代里可是个新鲜事物。至少在有关人类的数据这方面,之前是没有出现过平均值的。而自16世纪末以来,平均值在天文学上的应用已经相当广泛。阿道夫·凯特勒就曾设想过,如果把平均值用在人类身上而不是天体计算上,会怎样呢?这位来自比利时的天文学家是弗洛伦斯·南丁格尔的偶像,后者称他为“统计学的奠基人”。早年间他曾担任布鲁塞尔天文台台长一职,但在比利时1830年革命时期,这座建筑落入了自由战士手里。这件事也让凯特勒开始思索:人类为什么要闹革命?乍一看,社会似乎陷入了一片混乱,这也的确是比利时当时的情况。但人类的行为应该是有模式可循的。

凯特勒提出了一个开创性的想法:“平均人”。他大量地计算人类身高、体重、犯罪率、教育水平和自杀率的平均值,然后提出了“凯特勒指数”,其中最被大家熟知的就是“身高体重指数”(BMI),用来判断一个人的体重是否“正常”。直至现在,医生、保险公司和营养师依旧将它作为衡量一个人健康状况的标准。

在图表和平均值之后,人们又发明出了更多复杂的方法来分析数据。历史学家斯蒂芬·斯蒂格勒将1890—1940年的这个时期称为“统计学的启蒙时代”。那时候,科学家们想出了许多巧妙的方法来发掘数字中的模式,例如计算相互关系和设计实验等等。

南丁格尔并没有参与其中大部分的研究,因为她在1910年就去世了,但她的数字研究是具有开创性的。后来,有一位苏格兰的医生追随她的脚步,在克里米亚战争结束将近一个世纪之后,再次证明了数字可以挽救生命。

一位叫阿奇·科克伦的战俘即将把他的秘密实验告诉德国人。他是位苏格兰医生,蓄着红色的胡子,再加上消瘦的脸庞,让他整个人看上去十分狂野。他穿着一条破破烂烂的卡其色百慕大短裤,裤子下方露着一对水肿得很严重的膝盖。

他并不是唯一一个得水肿的人,和他一起被囚禁在希腊塞萨洛尼基的战俘们接二连三地被水肿折磨,不是肿脚踝就是肿膝盖。作为德国人指定的该战俘营的主任医师,科克伦每天都记录下20例新增的水肿病例。有时他甚至还会故意少记几例,以免造成其他战俘的恐慌。

然而现在科克伦必须得说些什么了。为了挽救战俘们的生命,他只能向德国人求助,即使他并不指望他们。就在不久前,一名德军哨兵还往厕所里扔了一枚手榴弹,只因为他听到了“可疑的笑声”。

科克伦确有怀疑过,营内的水肿可能和脚气病有关,这是一种由于缺乏维生素B而引起的疾病。于是,他决定效仿他的偶像詹姆斯·林德,在战俘营中也做一个试验。两个世纪前的1747年,海军医生林德进行了一场历史上最早的临床试验。他将12名患有坏血病的水手分为两人一组,每组吃不同的食物。他让两个人每天吃2个橙子和1个柠檬,两个人每天额外喝6勺醋,两个人每天喝250毫升的海水,等等。

林德很快就发现,吃了柑橘类水果的水手几天后病情开始好转。因此,他得出了现在早已是常识的一条结论,即维生素C可以预防坏血病。

科克伦决定向林德学习。在希腊的塞萨洛尼基,他将20位患者分成两组,分别住在两个房间。他让其中一组每天吃3次酵母粉,因为酵母是维生素B的来源;同时从自己的急救补给中,每天给另一组每人1片维生素C。他做的这些,患者们当时并不知情。

试验开始的第一天早晨,科克伦便开始记录患者们排尿的频率。第一天两组人并没有什么区别,第二天也是如此。但到了第三天,他发现那组吃酵母的患者上厕所的频率变高了。到了第四天他更加确信:吃了酵母的患者,体内水分减少,排尿更频繁,并且,10人之中有8个人感觉身体状况有所好转,而另一组人的病情却依旧不见起色。

科克伦把所有的试验记录整理清楚后,带着他的日志本站在了德国人的面前。他对德国人这样说:“我们必须要做点什么,否则后果将难以控制。”令人惊讶的是,德国人似乎被他的故事打动了,当场就有一名年轻的德国军医问他需要什么帮助。科克伦回答:“马上为病患提供大量的酵母粉。”德国人随即承诺会尽他们所能满足这个条件,他们也的确这么做了,第二天就运来了大批的酵母粉。不到一个月,战俘营中就几乎看不到水肿患者了。

直觉、认知偏差和利益关联

科克伦的故事不仅讲述了一种分析数据的新方法,还提到了数字的说服力。当时,甚至连科克伦自己都不确定能否得到敌军的支持。那么,数字为何会比文字更具有说服力呢?发生在科克伦身上的另一个故事能给出答案。

“二战”结束后,科克伦回到了英国,他开始致力于在医学中加入更多的数据研究。在当时那个年代,他所做的那些医学试验,就像战俘营里的那个,仍然十分罕见。

20世纪60年代,许多医院都成立了造价极其昂贵的心脏监测部门。这个举措看上去还挺合乎逻辑的:为了防止心脏病人死于心力衰竭,医生必须密切监控病人的状况。然而,怀疑论者科克伦并不同意这个说法。他认为,如果人们真想知道这个部门是否有用,那就得进行临床试验,比如让一组患心脏病的志愿者回家医治,而另一组患者则送去部门监测。

不过,科克伦的想法遭到了伦敦道德委员会的严厉批评,他们说他这样做是在玩弄生命。尽管如此,科克伦还是用试验的重要性,成功地说服了委员会主席。但当他回到加的夫的医院后,科克伦的医生同事们均拒绝参与他的试验,他们认为医生可以自行决定如何诊治病患。对此科克伦气愤不已:这得多么狂妄和自大,才会觉得仅凭医生自己就能确定什么对病患是最好的啊。当时,医学领域更遵循“经验医学”而非“循证医学”。这位苏格兰医生很清楚,对病患的诊疗手段更多取决于医生的声誉,而不是它的科学依据。

幸运的是,布里斯托尔医院的同事们同意他在那儿进行试验。6个月后,他们带着试验结果去往伦敦道德委员会。结果显示:心脏监测小组的结果略好一些,但二者的差异微乎其微。然而,半年前让科克伦烦心不已的委员会成员们,在看到结果之后变得极其愤怒。委员会成员说:“阿奇啊,我们一直认为你这么做是不道德的。你必须马上中止你的试验。”

科克伦耐心地听他们说完,然后说:“不好意思,刚才我给大家展示的是一份错误的报告。”他随即拿出了另一份写有正确结论的报告:数据没变,只不过被掉了个个儿——回家医治的病患数据更好。科克伦问:“你们现在是不是要说‘应该关掉心脏监测部门’呢?”

这则逸闻揭示了科克伦作为一名研究人员需要克服的几重障碍。第一重是情感障碍:医生只是简单地认为,将病患留在医院里就是更好也是更安全的选择。随即,当科克伦所展示的数据正好符合委员会成员的理念时,他们在认知上就产生了偏差。最后,某些方面的利益关联也发挥了作用,因为如果事实证明,设立昂贵的心脏监测部门是一个错误的决定,那么委员会的声誉就会受到损害。

这样看来,数字是能成功越过直觉、认知偏差和利益关联这三重障碍的。因为当文字被迅速地染上主观色彩的时候,数字则一直中立地反映着事实的真相。简言之,数字本就是客观的。那么,数字会在社会中慢慢地占据主导地位,也就不足为奇了。

科克伦去世五年后的1993年,一个由医生和统计学家组成的世界网络组织“科克伦合作组织”成立了。该组织为医学研究界的几乎每一个领域收集着科学依据。现在,《科克伦评论》是“循证医学”最重要的资料来源之一。

科克伦呼吁在医学领域加入更多的数据研究,而这也的确成功挽救了许多人的生命。以20世纪80年代的心律失常抑制试验(CAST)为例。当时,为了防止患者心律失常,医生通常会在患者心脏病发作后让其服用药物。这个做法从逻辑上来看没有问题:额外的心跳常常伴随着猝死的现象,因此必须加以抑制。但CAST试验在对1700名患者进行深入研究后显示,服药后病人的死亡率非但没有降低,反而还升高了。

科克伦和南丁格尔的故事,都让我们看见了数字最好的一面:它能挽救人的生命。而数字之所以如此重要,另一个原因是当权者可以用它掌控国家。所以,历史长河中曾出现了那么多干预数据的政客,这并不是没有原因的。多年来,阿根廷的通货膨胀率就是在其政府的要求下,经过美化后才展现给大众看的。前英国外交大臣鲍里斯·约翰逊就曾多次被统计学家指责脱欧数据有误。而一个独立的统计机构可以防止政客们操纵数据,从而展现真实的情况。

然而,数字也有坏处。它既可以让生活变得更美好,也能将其摧毁。对于大规模的数字使用来说,标准化、采集和分析这三个步骤并不总能被永远正确地执行,有的时候就会出现错误,很严重的错误。