前言
这是一本不同寻常的书。关于数据的书,其内容大多数是针对你拥有的数据的,例如,有关于大数据、开放数据的流行读物,也有关于数据科学或者数据分析的统计技术书籍。那些书讨论的是你计算机文件夹里的数据、你桌上文件里的数据,或者是你笔记本里记录的数据。与此相反,本书关注的是那些你并未拥有的数据——也许是你想要拥有、希望拥有,或者认为自己已经拥有但实际上并未拥有的数据。我认为那些缺失的数据至少与你实际拥有的数据同样重要,而且我用很多例子证明了这一点。我们将看到,你看不见的数据有可能会误导你,有时甚至会造成灾难性的后果。我阐释了这些情况如何发生,以及为什么会发生。同时,我也说明了如何避免这些灾难,即你应该注意哪些事项。接下来的内容也许会让你感到惊讶。一旦你明白暗数据是如何产生、如何导致这些问题的,我就会向你展示如何使用暗数据视角,改变传统的数据分析方式:假如你足够聪明,那些隐藏的数据就能帮你更深入地理解一些现象,更好地优化决策,更合理地选择行动方案。
数据(data)这个词是单数还是复数,一直是一个令人烦恼的问题。过去,它通常被视为复数,但随着语言的发展,许多人认为它是单数。在本书中,我试着将“数据”视为复数,所以,我的看法可能和你的看法完全不一样。
我对暗数据的认识是在整个事业进程中逐步发展起来的。我要感谢很多人。他们给我带来挑战,让我慢慢意识到暗数据问题;他们与我并肩战斗,逐步研究出应对这些暗数据的方法。此类问题涉及医学研究、医药行业、政府和社会政策、金融领域、制造业和其他领域。没有什么领域能免于暗数据的风险。
我要特别感谢那些花大量时间帮我审稿的人。他们是克里斯托福罗斯·阿纳格诺斯托普洛斯、尼尔·钱农、尼尔·亚当斯以及出版商安排的三位匿名读者。他们帮我避免了很多令人尴尬的错误。我的经纪人彼得·泰勒克帮我给书稿寻找理想的出版商,提出建议并把握本书的重点和方向,给了我巨大的支持。本书的编辑,普林斯顿大学出版社的英格丽德·格涅利希,给了我很多有价值的指导,帮助我打磨草稿。最后,我特别感谢我的妻子,谢莉·钱农教授,她对多份草稿进行了深度评析,使本书内容得到了极大的提升。
戴维·汉德
伦敦帝国理工学院