3.3 思维转变之二:接受数据的混杂性
当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。直到今天,我们的数字技术依然建立在精准的基础上。假设只要电子数据表格把数据排序,数据库引擎就可以找出和我们检索的内容完全一致的检索记录。
这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以必须尽可能精准地量化我们的记录。在某些方面,我们已经意识到了差别。例如,一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。
针对小数据量和特定事情,追求精确性依然是可行的,比如一个人的银行账户上是否有足够的钱开具支票。但是,在大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
大数据时代的第二个转变,是我们乐于接受数据的纷繁复杂,而不再一味追求其精确性。在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库,我们需要努力避免这些问题。
3.3.1 允许不精确
对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以必须确保记录下来的数据尽量精确。为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
然而,在不断涌现的新情况里,允许不精确的出现已经成为一个亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。
混乱还指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。当然,在萃取或处理数据的时候,混乱也会发生。因为在进行数据转化的时候,我们是在把它变成另外的事物。
可见,为了获得更广泛的数据而牺牲了精确性,也因此看到了很多无法被关注到的细节。虽然如果能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。
大数据在多大程度上优于算法,这个问题在自然语言处理上表现得很明显。2000年,微软研究中心的米歇尔·班科和埃里克·布里尔一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。
结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高了。当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率从86%只提高到94%。
后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”
3.3.2 纷繁的数据越多越好
通常传统的统计学家都很难容忍错误数据的存在,在收集样本的时候,他们会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。
大数据时代要求我们重新审视数据精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就有可能错过重要的信息。
如今,我们已经生活在信息时代。我们掌握的数据越来越全面,它包括了与这些现象相关的大量甚至全部数据。我们不再需要担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
在华盛顿州布莱恩市的英国石油公司(BP)切里波因特炼油厂(见图3-5)里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。在这里,酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。
图3-5 切里波因特炼油厂
有时候,当掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,反而能够更好地进行预测,也能够更好地理解这个世界。
值得注意的是,错误性并不是大数据本身固有的特性,而是一个急需我们去处理的现实问题,并且有可能长期存在。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。
3.3.3 混杂性是标准途径
长期以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源。这样的分级系统通常都不完善。而在“小数据”范围内,这些方法就很有效,但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。
一家加拿大的相片分享网站Flickr(见图3-6)在2011年就已经拥有来自大概一亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。恰恰相反,清楚的分类被更混乱却更灵活的机制所取代了,这些机制才能适应改变着的世界。
图3-6 Flickr年度最受欢迎的照片之一
当上传照片到Flickr网站的时候,我们会给照片添加标签,也就是使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们所必须遵守的类别规定。任何人都可以输入新的标签,标签内容事实上就成为网络资源的分类标准。标签被广泛地应用于微信、脸书、博客等社交网络上。因为它们的存在,互联网上的资源变得更加容易找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。如今,要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
3.3.4 5%的数字数据与95%的非结构化数据
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。
怎么看待使用所有数据和使用部分数据的差别以及怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。
现在,我们能够容忍模糊和不确定出现在一些过去依赖于清晰和精确的领域,当然过去可能也只是有清晰的假象和不完全的精确。只要我们能够得到一个事物更完整的概念,就能接受模糊和不确定的存在。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节,也依然会错过事物的全貌。