简单统计学:如何轻松识破一本正经的胡说八道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

序言

我们生活在大数据时代。高性能计算机和全球网络的强大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析,发现重要的结论。

也许事实的确如此,也许未必。有时,这些无所不在的数据和伟大光明正确的计算机会得出一些非常怪异的结论。例如,有人一本正经地宣称:

 

● 凌乱的房间会强化人们的种族主义倾向。

● 还未出生的小鸡胚胎会对计算机的随机事件生成器产生影响。

● 当政府负债相对国内生产总值的比率超过90%时,国家几乎一定会陷入衰退。

● 在过去20年美国犯罪率下降的原因中,合法堕胎的比例高达50%。

● 如果每天饮用两杯咖啡,患上胰腺癌的风险将极度放大。

● 最成功的公司倾向于变得不那么成功,最不成功的公司倾向于变得更加成功,因此用不了多久,所有公司都会沦为普通的公司。

● 出现在《体育画报》和《麦登橄榄球》封面上的运动员会受到诅咒,他们可能会陷入平庸,或者受到伤病困扰。

● 生活在输电线附近的儿童具有更大的患癌风险。

● 人类有能力将死亡推迟到重大仪式过后。

● 亚裔美国人更容易在每月四号突发心脏病。

● 如果一个人的姓名首字母缩写拥有积极的含义(比如ACE),那么他可以多活三到五年。

● 平均来说,教名(第一个名字)以字母D开头的棒球运动员的寿命比教名以字母E到Z开头的运动员短两年。

● 临终病人可以被几千英里以外传送过来的积极心理能量治愈。

● 当NFC冠军球队赢得超级碗(美国超级碗总决赛在国家联合会(NFC)和美国联合会(AFL)分别比赛产生的冠军之间举行——译者注)时,股市几乎一定会上涨。

● 如果你购买股息率最高、每股价格第二低的道琼斯股票,你就可以跑赢大盘。

 

这些说法显然是错误的。不过,许多与此类似的说法每天都会出现在报纸和杂志上。在如今的信息时代,我们用没完没了而又毫无意义的数据指导我们的思想和行动。不难看出为什么我们会反复得出错误的推论,制定糟糕的决策。即使能够得到比较充足的信息,我们也不会永远注意到数据的偏差性和无关性,或者科学研究的缺陷和误导性。我们倾向于相信计算机从不犯错,认为不管我们把什么样的垃圾扔进去,计算机都会吐出绝对真理。这种想法不仅存在于外行人的日常生活中,也存在于专业人员严肃认真的研究工作中。在流行刊物、电视、互联网、竞选活动、学术期刊、商业会议、法庭,政府听证会,此类现象屡见不鲜。

几十年前,数据非常稀少、计算机还没有出现时,研究人员需要努力收集优质数据并进行审慎的思考,然后花费几个小时甚至几天的时间从事艰苦的计算工作。现在,面对丰富的数据,研究人员通常不会花费太多的时间对优质数据和垃圾进行区分,或者对合理分析和垃圾科学进行区分。更糟糕的是,我们常常不假思索地认为,我们对大量数据的处理永远不会出错。我们匆匆忙忙地根据这些机器发出的梦呓制定决策——比如在衰退过程中增加税收,将我们一生的积蓄交给一些说得天花乱坠的财务分析师,根据最新的管理理念制定商业决策,用医疗骗术危害我们的健康——更糟糕的是,我们还会放弃心爱的咖啡。

罗纳德·科斯(Ronald Coase)曾经嘲讽道:“如果你对数据拷打足够长的时间,它一定会招供。”《简单统计学》一书考察了几十个扭曲的结论。只需片刻的思考,你就会发现这些结论的问题。有时,无耻之徒故意用这些说法来误导我们。有时,天真快乐的研究人员并没有意识到他们所制造的恶作剧。我写这本书的目的是帮助我们远离错误——包括外部错误和自己造成的错误。你将学到一些简单的指导准则,用于识别其他人或者你自己说出的不靠谱的观点。其他人用数据欺骗我们,我们也经常用数据欺骗自己。