
1.3 大数据时代处理数据理念的改变
1.3.1 要全体不要抽样
在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来,之所以选择抽样而不是统计全部数据,只有一个原因,那就是全部数据的数量太多了,根本没法操作。抽样的核心原则就是随机性,不随机就不能反映整体趋势性。抽样随机性的道理谁都知道,但要做到随机性其实是很难的。例如,电视收视率调查,要从不同阶层随机找被调查人,但是高学历高收入的大忙人普遍拒绝被调查,他们根本就不会为几个赠品而耽误时间,愿意接受调查的多是整天闲得无聊的低收入者,电视收视率的调查结果就可想而知了。所以真正实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。
互联网电视普及后,为大数据的采集带来了新手段。还以电视收视率调查为例,每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心,对全部数据进行统计分析,其结果会变得更加准确。
之前由于数据处理技术所限,我们不能使用更多的数据,因此就不会去要求更多的数据。随着大数据处理技术的出现,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。
1.3.2 要效率不要绝对精确
传统的数据分析的思路是“宁缺毋滥”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响。对错误数据必须花大精力去清除,这是小数据时代必须坚持的原则。
大数据时代的原则就变了,变成了要效率不要精确。并不是说精确不好,而是说这个注重效率和成本的时代,如果继续把排除错误数据作为重要工作,那么大数据分析就进行不下去了。
如果我们掌握的数据越来越全面,已经不是只包括我们手头相关现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据,那么我们不再需要过分担心某个数据点对整套分析的不利影响。
举个例子,谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制,而是因为谷歌翻译增加了很多各种各样的数据。从谷歌翻译的例子来看,它之所以能够重复利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库就是来自于互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。虽然谷歌翻译的语料库的内容来自于未经过滤的网页内容,会包含一些不完整的句子、拼写错误、语法错误,也没有详细的人工纠错后的注解,但是谷歌语料库是其他语料库的好几百万倍,这样的优势完全压倒了缺点。
所以说,在大数据时代我们要能够容忍错误。大数据分析的目标在于预测,要学会在瞬息万变的信息中掌握趋势,为下一刻的决策提供依据。
1.3.3 要相关不要因果
大数据时代最大的转变就是放弃对因果关系的渴求,取而代之的是关注相关关系。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。只要知道“是什么”,而不需要知道“为什么”。这是对千百年来人类思维惯例的颠覆。
例如,老张开了一个包子铺,有时做少了不够卖,有时做多了没卖完,两头都是损失。老张琢磨着买包子的都是街坊,他们买包子是有规律的,例如老王只在周末买,因为闺女周末会来看他,而且闺女就爱吃包子。于是老张每卖一次就记一次账,谁在哪天买了几笼包子,并试图找出每个街坊的买包子规律。
数据虽然越记越多,但老张啥规律也没找出来,即使是老王也都没准,好几个周末都没来买,因为他闺女有事没来。有个人给老张支招,你甭记顾客,就记每天卖了多少笼就行,这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。
这个例子虽然简单,却道出了大数据的一个重要特点:相关关系比因果关系更重要。周末与买包子人多就是相关关系,但为什么多呢?是因为老王闺女这样的周末来吃包子的人多,还是周末大家都不愿意做饭呢?对这些可能性不必探究,因为即使探究往往也搞不清楚,只要获得了周末买包子的人多,能正确地指导老张在周末多包上两笼,这就行了。
我们理解世界不再需要建立在假设的基础上,我们不需要了解航空公司怎样给机票定价,也不需要知道超市顾客的烹饪喜好,取而代之的是对大数据进行相关关系分析,从而知道暑期飞机票价格会飙升、台风期间待在家里的人最想吃的食物是什么……我们用数据驱动的关于大数据的相关关系分析法取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
要相关不要因果,这是大数据思维的重要变革。以前数据处理的目标更多的是追求对因果性的寻找,人们总是习惯性地要找出一个原因,然后心里才能踏实,而这个原因是否是真实的却往往无法核实,并且虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。