
1.2 前沿技术
随着科技水平的提高,以前要一周时间才能完成的事情,现在却可以通过强大的信息化系统在一个小时内实现。系统会记录大量的数据,对这些数据的挖掘分析则可以进一步提高系统处理的效率和质量。这一块其实是大数据研究的内容。数据维度的增加可以使预测结果更准确;数据的实时处理也会为预测技术应用于更多领域创造条件。但是,数据太大会导致预测建模性能跟不上,基于GPU的加速技术会是更好的选择。基于GPU的神经网络加速技术已经相当成熟,GPU集群可以直接基于大数据进行建模。人工智能技术就涉及这部分内容,等到大数据处理、算法、算力的问题都解决了,预测技术会应用于更多的业务场景,并进一步拓展其发挥价值的空间。
1.2.1 大数据与预测
在大数据理念逐步深入到应用的今天,其概念已不再陌生。然而,在大数据的影响下,预测的技术也在慢慢地发生改变。那么,什么是大数据呢?下面分别解释其字面含义。
●何为“大”?其大无外,横向关联各个领域;其小无内,纵深分割每处细节。
●何为“数”?可以表示数量、数目,是划分或计算出来的量,也可以表示学术。
●何为“据”?通常表示可以用作证明的事物,依据、证据即是这个意思。
简而言之,大数据即是指在充斥着海量维度与量级的资料中,通过理论方法、计算技术等手段,进一步深化认识、理解研究对象的过程。在此基础上,可以提升服务质量、改善环境生态、提高生活品质等。而此过程又包含在大数据的过程里,因为对事物的了解认识本来就是一个循环往复的过程,如图1-2-1所示。

图1-2-1 大数据认识示意图
可以看到,种类多、体量大、价值密度低、速度快是大数据的显著特征,或者说,只有具备这些特点的过程,才算是大数据。这4个主要特征,又叫大数据的4V特征,分别对应4个英文单词:Volume(体量大)、Variety(种类多)、Value(价值密度低)、Velocity(速度快)。大数据4V特征的主要内容如图1-2-2所示。

图1-2-2 大数据的4V特征
由图1-2-2可知,大数据的体量已经不是简单的量级增加,其中非结构化数据增势迅猛。数据充满异构性和多样性,文本、图像、视频、机器数据大行其道。从如此繁杂的数据中找出有利用价值的业务点来,难度较大。而在一些典型的推荐场景中,特别强调实时,用户刚到一个地方甚至在将要到达时,推荐信息就要完成推送,达到立竿见影的效果。
在数据量与日俱增的今天,对数据的快速存储、实时计算提出了更高的要求。随着“互联网+”的观念深入人心,很多传统企业正在为转型寻找出路,更多维度的数据将被打通,同时,语音、视频、图片等非结构化数据也包含着太多需要进一步提炼的信息。因此,当前许多公司都开始在大数据领域试水,已经进入,并将持续深入大数据的尝试、落地、创造价值的进程中。而速度将成为许多大数据应用的瓶颈,数据的处理速度必须快,很多数据甚至都来不及存储就要参与分析,这是一个挑战,而基于大数据来实现更加复杂多样的预测应用,则是一个机遇。
1.2.2 大数据预测的特点
大数据具有体量大、种类多、速度快的特点,为有效预测提供了坚实基础。预测的准确性很大程度上依赖于特征的数量,而特征数量的多少又直接取决于可以获得的数据种类。大数据种类多的特点,为预测的准确性奠定了可靠基础。为了更好地预测,只有多的数据种类还不够。大数据的体量保证了预测时具有充足的数据分析源,进一步保证了预测模型的稳定性。只有在足够数据量的情况下,才能确保预测的结论是有效可靠的。另外,很多预测问题都要求在未来时间到来之前就要给出一个合理可行的计划,这要求预测实现要快,过期的预测毫无价值。大数据速度快的特点,足以满足预测实现的时间要求。
总地来讲,大数据预测的优势依赖于大数据的体量大、种类多、速度快的特点。它们的关系如图1-2-3所示。

图1-2-3 大数据优势间的关系
可见,种类多可以尽可能多地提高预测的精度;体量大为预测模型的稳定性奠定了基础;速度快真正地决定了预测的价值。因此,概括一下,大数据预测的优势体现在更准确、更稳定、更有价值。
预测需要数据,同时预测的结果服务于决策、计划。因此,大数据预测的特征也由数据的特征和决策、计划的特征来综合决定。由于大数据体量大的特点保证了在预测时具有足够的数据源,这与传统统计在数据有限的情况下釆用抽样的方法有所不同,大数据预测可以不用抽样而直接使用全体样品进行分析。此外,精准预测难以实现,在海量的数据下更需要投入很大成本,包括基本的硬件投入和运行时间。因此,快速地从数据中提取有价值的信息并加以有效利用比单纯地关注精准度更有意义,甚至允许损失一些精准度来换取效率的提升。传统的计划、决策特别强调因果关系,当业务出现问题时往往需要回溯到问题源头去考虑更为合适的解决方案。但是,在大数据时代,业务环节繁杂,需要分析的工作量巨大,甚至会不断出现之前没有研究过的新问题,此时,解决问题的速度显得特别重要,快速地得到相对可行的方案比花很多时间制定完美的方案更为可取。因此,因果关系的重要性降低,很多问题只有在充足的条件下才能研究其因果关系,取而代之的是相关关系。虽然相关关系并没有那么强的因果关系基础,但是可以在短时间内得到解决方案。虽然有时方案并不一定可行,但是制定方案的成本低,并可成为后续制定有效方案的基础。但若是有效,就达到了事半功倍的效果,后续再投入资源研究,也有可能取得更大突破。
1.全样而非抽样
抽样又叫取样,是指从研究的全部样品中抽取一部分样品单位,要求其对全部样品具有充分的代表性。选择抽样而不用全部样品的目的是减少分析和研究成本、提高效率。而全样是指用全部样品进行分析和研究。相对于抽样而言,全样使用了所有的样品因此结论更为可信。抽样的结论还需进一步推断以得出可以代表全部样品的结论,由于不知道全部样品的分析结果,这种方法的可信度相对不高。从数据来源的层面看,抽样只是对样品进行抽取,尚没有得到所有样品的详细数据。一般的做法是根据抽取样本的基础信息再进一步获得其详细信息的。这样就降低了数据获取的成本。而全样是在已经获取所有样品的详细信息之后进行分析、研究的方法。由于大数据的体量大、种类多,可以保证全样的可行性。而传统的分析方法由于没法拥有全量的详细信息,只能通过抽样的方法在保证获取有限样品的详细信息的情况下,推断全部样品下的结论。可以看到,在全样的条件下已经不需要P值了,但是传统统计学的很多算法在大数据条件下仍然适用。图1-2-4为全样与抽样的示意图,可以明显地看出全样的数据基数较大,抽样的数据基数较少,因此对于最终结论,全样的分析结果更有说服力。

图1-2-4 全样与抽样的关系
2.效率而非精确
所谓精确可以理解为非常准确,比准确更能体现符合实际情况的程度。对大数据预测而言,由于具有体量大、种类多、价值密度低的特征,要实现精确的预测需要的时间成本和硬件成本非常高,通常在有限的资源条件下达到相对准确就可以接受了。此外,并不是投入的资源越多,预测结果也会更精确。实际上要达到预测准确是很难实现的,对于非线性的复杂系统要达到精确更是不可能的。比如,放飞一个气球,要对气球的飞行轨迹进行预测的。在气球的飞行过程当中,牛顿第二定律支配着气球,但是,一些推动力、空气的作用会造成运动轨迹的不可预测性。这正是混沌的一种经典表现,气球在起飞时的微小变化,也可能造成飞行方向的巨大改变。如果用方程来解决气球不稳定的运动,则会发现它的轨迹是非线性的,对应方程几乎不可解,所以是不可预测的。然而,情况也没有那么糟糕。虽然对气球长期的轨迹不可预测,但是对于某一个时刻向前的短期时间内气球的移动轨迹还是可以比较准确地进行推测的。由于时间较短,气球受其他或将受其他外力的累积影响较小。只要根据某时刻气球的状态参量,就可以进行有效推测,但也会存在误差。正是因为获得很高的预测精度难以实现,所以大数据预测更强调效率,强调在有限的资源条件下获得相对准确的预测结果,以快速地转化为价值。图1-2-5为气球放飞示意图。

图1-2-5 气球放飞与预测
3.相关而非因果
因果指的是原因和结果,有什么样的原因必然会导致什么样的结果,同样,什么样的结果也必然是由什么原因造成的。俗话说“种瓜得瓜,种豆得豆”“老鼠的儿子会打洞”就是这样的道理。从时间层面来讲,原因在结果前面,在先知道原因的情况下就可以了解之后会发生什么事情,这就是预测。其实预测的绝大部分工作就是挖掘所有可能的因果模式。当因果模式确定后,预测就会变得很简单。因果模式越多越可靠对预测效果越好。然而,为了达到足够的精度而花大量时间和硬件成本,多数情况下会入不敷出。特别是在大数据的条件下,体量大、种类多、价值密度低,一味地追求高的精度,一味地挖掘因果模式,不见得是明智之举。而相关关系可以弥补这种不足,所谓相关是指变量之间相随变动的关系。可以看到相关关系的两者之间没有时间先后顺序,甚至可以是毫不相关的事物,比如冰淇淋与犯罪。可见,相关关系是比因果关系更广,要求更为宽松的关系。对于大数据预测,相关关系提供了比因果关系更加切实可行的选择。有以下两点主要原因。
(1)相关关系分析比因果关系分析成本低、效率高。
(2)对于具有因果关系的事物必然存在相关关系,但存在相关关系的事物未必存在因果关系。
因此,从有相关关系且有明显效果的案例入手,既能事半功倍,又能深入研究因果关系,进一步巩固成果。何乐而不为呢?图1-2-6为因果关系与相关关系的概念图解,可以看到,如果a能直接得出b就是因果关系,如果不能确定是a得出b还是b得出a(有可能是其中一种,也有可能哪一种都不是),则在发生相随变化时就是相关关系。

图1-2-6 相关关系与因果关系示意图
1.2.3 人工智能与预测
在深度学习的带动下,人工智能概念再次被炒起来了,那究竟什么是人工智能呢?我们可以把人工智能的定义分为“人工”和“智能”两部分来理解。“人工”通常表示人造的,“智能”可以表示意识、自我、思维等方面。那么,人工智能可以简单地理解为人造的具有意识思维的实体。人工智能是门综合学科,企图通过对人类形成智能过程的了解,制造出智能,该领域的研究内容包括语音识别、语言理解、图像识别、语义分析、机器人技术等。人工智能在计算机领域得到了愈加广泛的重视,也有大量的研究成果和突破,在机器人、经济分析、政治决策、控制系统、仿真系统等领域得到广泛应用。
然而,人工智能从提出到发展的过程并不是一帆风顺的(见图1-2-7),它大致可以分为以下5个重要阶段。

图1-2-7 人工智能发展历史,明显看到出现过两次低谷
第一阶段:第一代神经网络
此阶段大致在1958—1965年,MP人工神经元数学模型是1943年被提出来的,也是最早的神经网络思想的来源。该模型将神经元进行抽象简化,最终提炼为3个过程,即加权、求和、激活,当时希望通过这种方式来模拟人类的神经元反应的过程,如图1-2-8所示。

图1-2-8 人工神经元模型
大概过了15年,感知机算法被提出,Rosenblatt使用该算法实现了二元分类,并且是基于MP模型实现的。由于感知机能够使用梯度下降法从给定的训练数据中学习权值,1962年,该方法的收敛性得到证明,由此引发第一次神经网络的浪潮。
第二阶段:第二代神经网络
在此阶段,Hinton于1986年提出了可以优化多层感知机(MLP)的反向传播(BP,Back Propagation)算法,并为解决非线性分类和学习的问题,尝试采用Sigmoid函数进行非线性映射,取得了成功,于是引发了神经网络的第二次热潮。1989年,MLP的万能逼近定理被RobertHecht-Nielsen证明,亦即可以用含有一个隐藏层的BP神经网络来逼近任何闭区间内的一个连续函数,该定理的发现极大地激励了神经网络的研究人员。但是,LeCun在同年发明的卷积神经网络LeNet并没有引起足够的重视,即便其当时在数字识别方面取得了很好的效果。1989年以后,由于没有特别突出的方法被提出,且神经网络一直缺少严格的数学理论支持,热潮逐渐退去。
第三阶段:统计建模时代
此阶段有很多的建模方法被出来,影响也比较大,主要包含如下成果。
●1995年,线性支持向量机,具有完整的数据推导过程,并在当时的线性分类问题中取得最好结果。
●1997年,AdaBoost算法,基于系列弱分类器,达到和强分类器相近的建模效果。
●2000年,核化SVM算法,通过核函数将数据映射到高维空间,解决了数据在低维空间中线性不可分的问题,且效果非常不错,进一步阻碍了神经网络的发展。
●2001年,随机森林算法,具有比AdaBoost更强的防止过拟合的能力,实际效果也相当不错。另外,图模型的研究人员试图统一朴素贝叶斯、SVM、隐马尔可夫模型等算法,尝试提供一个统一的描述框架。
第四阶段:快速发展期
此阶段大致在2006—2011年,2006年又被称为“深度学习元年”。当时,Hinton提出了深层网络训练中梯度消失问题的解决方案,即使用无监督预测训练方法对权值进行初始化,然后使用有监督训练方法对模型进行微调。2011年,ReLU激活函数被提出,它能够有效地防止梯度消失,同年,微软首次将深度学习应用在语音识别上,取得重大突破。
第五阶段:爆发期
此阶段是从2012年至今,Hinton团队通过构建AlexNet在ImageNet图像识别比赛中夺冠,且碾压SVM等方法,从此CNN算法得到了众多研究者的关注。人工智能也再次火热。
人工智能由于具有更强的硬件基础和特征表示能力,在图像、视频、声音、语言等研究领域和应用方面都取得了不错的成绩。然而,在一些真实场景的应用中,预测功能显得格外重要,在人工智能的加持下,很多以前认为不可能的事情,现在正在被研发,甚至不久的将来就会出现在我们的生活中。人工智能基于复杂场景的预测,可以将未来几秒内的场景预测出来,到时,人类就拥有了预见未来的能力。一个可预见的应用,就是将人工智能预测模块装备到自动驾驶的系统中,这样就可以有效防止各种事故的发生,避免人员伤亡和财产损失,如此等等。人工智能与预测的结合,即将会改变我们的生活。
1.2.4 人工智能预测的特点
人工智能通常被分为3类,即弱人工智能、强人工智能以及超级人工智能。弱人工智能,指的是利用智能化技术,帮助我们改进生产生活,其并没有真正涉及智能的层次,只是相比传统方法更加高效、更加可靠。而强人工智能,指的是智能方面非常接近于人的存在,但这需要人类对自身大脑的相关研究取得突破性进展之后,才有可能实现。所谓超级人工智能,则指的是强人工智能的晋级版本,是脑科学和类脑智能发展到非常顶尖的水平后,人工智能所体现出来的超强智能形式。但是从目前的技术而言,实现弱人工智能是更为理智的方式,进阶到强人工智能的困难极大,且存在很多局限性。
与传统的预测技术相比,在新一代人工智能(这里指上文的弱人工智能)技术的加持下,预测技术又向前迈了一个台阶。大数据时代,我们很看重数据中存在的相关关系,没错,这确实给我们带来很多便利,可以快速从数据中发现潜在可能的规律或模式,也许就能应用于生产实现更多价值。然而,在人工智能的前提下,这种相关关系显得比较脆弱。目前,业界的相当多的应用都是基于相关关系去拟合曲线,无论使用多么强大的深度学习模型,都还是在做拟合。这种方法会有很大局限性,很多基于曲线拟合得出的结论是不可靠的,甚至是荒谬的。因此,进阶到因果关系后,这种格局将被全面打破,预测技术本身也会进一步变得更可信、更可靠、更容易解释。当然,还有很多学者、研究员一直致力于因果关系在人工智能中的应用。
此外,基于人工智能的技术,在开发预测模型时,我们不需要费心费力地去构建庞大的特征集(必备的数据处理除外),人工智能的相关技术可以帮助我们快速学习特征,这是以前预测技术里面所没有的。基于此,预测技术有望变得更智能和高效。除了将预测技术应用于股票预测等常见的数值预测,在人工智能的加持下,预测技术还可以应用于复杂场景,比如对3D场景的实时预测,这将是一个重要的研究方向,可以应用于交通等多个领域,潜在价值不可估量。
因果性、特征学习、复杂场景分别是人工智能预测的3个主要特点,如图1-2-9所示。我们可以从特征学习中去抽象出因果关系,当困果关系被验证之后,我们可以用于重构特征,而因果关系本身可用于预测场景的理解与阐述,特征学习直接用于预测场景的建模。在人工智能的加持下,预测技术也可以支持复杂场景的预测,并且拥有极大的发挥价值的空间。

图1-2-9 人工智能预测的3个主要特点
1.2.5 典型预测案例
自从大数据兴起之后,很多领域都出现了大数据的应用案例,特别是大数据预测。在近几年的世界杯预测中,大数据预测表现出了强大的威力,《纸牌屋》也是使用大数据的方法分析观众的口味来定制的一部电视剧,同时,Google通过用户在流行病普遍发生前的搜索关键词对流行病进行有效预测。还有在气象方面的预测、犯罪预测等,大数据预测已经在各个人们关注的领域进行尝试。与此同时,人工智能领域也频繁出现经典的预测应用和场景,比如将人工智能预测技术应用于医疗的疾病预测、死亡预测等。下面介绍几个典型案例。
1.电影票房预测
2013年,Google在一份名为Quantifying Movie Magic with Google Search的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据以及影院排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达到了 94%。这表示大数据在电影行业中的应用已经开始,并将一直深入研究下去。
那么,Google的票房预测模型的精度为何如此之高?在此有何玄机呢?首先,我们很容易想到Google拥有大量的搜索数据,分析电影相关的搜索量与票房收入的关联性,可以让我们进一步了解Google票房预测模型的可行性。图1-2-10显示了2012年电影票房收入(虚线)和电影的搜索量(实线)的曲线(注:本节所有图片均引用自Google的白皮书:Quantifying Movie Magic with Google Search)。可以看到,两条曲线的起伏变化有着很强的相似性。

虚线是票房收入,实线是搜索量
图1-2-10 2012年票房收入与搜索量的曲线
于是,可以进一步尝试用搜索量直接预测票房。通过对2012年上映的99部电影的研究,Google构建了一个简单线性模型,拟合优度只有70%,如图1-2-11所示。

横轴是搜索量,纵轴是首周票房收入,图中的点对应某部电影的搜索量与首周票房收入
图1-2-11 搜索量与首周票房收入之间的关系
对于有效预测而言,70%的拟合优度是不够的。为了进一步提高准确率,Google考虑了电影放映前一周的电影的搜索量以及电影广告的点击量、上映影院数量、同系列电影前几部的票房表现这几大类指标。对预测的电影,收集对应的这4类指标之后,Google构建了一个线性回归模型来建立这些指标和票房收入的关系,预测的结果与实际的结果差异很小,如图1-2-12所示。

横轴是搜索量,纵轴是首周票房收入
实心点对应某部电影的首周票房收入,空心点对应预测的首周票房收入
图1-2-12 提前一周预测票房的效果
尽管提前一周预测的拟合优度可以达到92%,但对于电影营销而言,由于时间太短,很难调整营销策略,改善营销效果,因此价值并不大。于是,Google又进一步研究,使模型可以提前一个月预测首周票房。
Google采用了一项新的指标——电影预告片的搜索量。Google发现,预告片的搜索量比起电影的直接搜索量而言,可以更好地预测首周票房表现。这一点不难理解,因为在电影放映前一个月的时候,人们往往更多地搜索预告片。为了更好地提高预测效果,Google重新构建了指标体系,考虑了电影预告片的搜索量、同系列电影前几部的票房表现、档期的季节性特征3类指标。对预测的电影,收集对应的这3类指标之后,Google构建了一个线性回归模型来建立这些指标和票房收入的关系,预测的结果与实际的结果非常接近,如图1-2-13所示。

横轴是预告片搜索量,纵轴是首周票房收入
实心点对应实际某部电影的首周票房收入,空心点对应预测的首周票房收入
图1-2-13 提前一个月预测票房的效果
Google的票房预测模型的公布,让业内人士再次见证了大数据的成功应用。近年来,大数据在电影行业的应用越来越引起关注,比如此前Google利用搜索数据预测了奥斯卡获奖者,Netflix通过大数据分析深度挖掘了用户的喜好,捧红了《纸牌屋》等。其实对于票房预测,Google的模型基于的只是宏观搜索量的统计,对用户需求的挖掘相对表面。除了单纯从搜索量、广告点击量以及影院排片来预测票房,还可以使用社交媒体的信息,比如微博、Twitter的数据来分析用户的情感,特别是明星粉丝团的状态。另外,基于垂直媒体的宣传数据也可以用来预测票房。
从此案例可以看出,大数据在电影行业已经开始发力,Google票房预测基于简单的搜索量、广告点击等数据就可以实现高准确率的预测。后续也可以从用户的真实需要进一步挖掘用户的口味、社交、情感及个性需求,到时大数据在电影行业的影响就会更广,不仅可以预测票房,还有可能会改变整个行业。
2.流行病预测
2008年,Google推出“Google流感趋势”预测,根据用户输入的与流感相关的搜索关键词跟踪分析,创建地区流感图表和流感地图。为验证“Google流感趋势”预警系统的正确性,Google多次把测试结果与美国疾病控制和预防中心(CDC)的报告进行比对,证实两者结论存在很大相关性。他们把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,最终通过数学模型的搭建,构成了预测系统,在2009年发布了冬季流行感冒预测结果,与官方数据的相关性高达97%。
但是,2013年2月,《自然》杂志发文指出,“Google流感趋势”预测的流感样病例超过了美国疾病控制和预防中心根据全美各实验室监测报告得出的预测结果的两倍。主要原因是“Google流感趋势”预测在它的模型中使用了相对流行的关键词,所以搜索引擎算法对Google流感趋势预测的结果会产生不利影响。在预测时,基于这样一种假设:特定关键词的相对搜索量和特定事件之间存在相关性,问题是用户的搜索行为并不仅仅受外部事件影响,它还受服务提供商影响。
“Google流感趋势”预测(GFT)在2012—2013年的流感流行季节里过高地估计了流感疫情;在2011—2012年,则有超过一半的时间过高地估计了流感疫情,如图1-2-14所示。从2011年8月21日到2013年9月1日,“Google流感趋势”预测在为期108周的时间里有100周的预测结果都偏高,如图1-2-15所示。

图1-2-14 对流感样病例的预测结果

偏差%=(非CDC预测值-CDC预测结值)/CDC预测值
GFT的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311
图片来源:The Parableof Google Flu:Trapsin Big Data
图1-2-15 GFT与CDC相结合的平均绝对偏差为0.232
随着模型更新的减少及其他干扰搜索数据因素的存在,使得其预测准确率连续三年呈下滑态势。在中国,政府相关部门也在2010年开始尝试与百度等互联网科技公司合作,尝试通过大数据的挖掘、分析,实现流行疾病预警管理。中国疾病预防控制中心副主任、中科院院士高福也认同大数据在公共卫生预防控制上的作用。他公开表示,通过大数据可以在流感到来之前为人们提供一些解释性信息,为流感的预防提供缓冲时间。
如今,中国已经不仅预测流感,还开始预测包括肝炎、肺结核、性病等4种主要疾病。提供这项大数据预测服务的是百度,数据源除了用户提交的查询数据,还用到了Google没有用到的微博数据,以及百度知道中与疾病相关的提问。借助移动互联网的数量用户入口,移动数据也将为预测提供下一步更加意义深远的支持,如各地疾病人群迁徙的数据特征、各地天气变化等。据说,未来的预测将从现在的4种扩展到30多种主要疾病。
在具体的数据分析与挖掘方面,百度疾病预测将地区差异作为重要变量,针对每个城市分别建模,光是基于数据的输出模型就达到300余个。加之后台数据的精心准备,让百度的疾病预测在最终的产品端可以提供全国331个地级市、2870个区县的疾病态势预测。
目前,百度已经构建了一套疾病预测平台,用户可以根据需要了解全国各地疾病的分布及走势。
从此案例可以看出,大数据落地中国公共卫生管理只是一个美好的开始,我们可以做得还有更多,这个数据库的模型可以更加丰富,例如在数据收集端,通过智能移动健康设备实现个人健康数据的实时监测,数据即可输送至公共卫生管理大数据库,也可以建立个人健康管理电子档案。在数据利用端,通过个人电子健康档案,可以实现家族疾病及慢性疾病的实时监控,并对此实现长期对症治疗。
3.犯罪预测
如今越来越多的案例表明犯罪预防领域的预测型分析能够显著降低犯罪率,例如洛杉矶警察局已经利用大数据分析软件成功地把辖区里的盗窃犯罪降低了33%,暴力犯罪降低了21%,财产类犯罪降低了12%。
有趣的是,关于犯罪预测的起因却是源于对地震的预测。洛杉矶警察局采用了一套用于预测地震后余震的数学模型,把犯罪数据输入进去。对于地震的预测非常困难,不过,对于余震的预测则要容易得多。在地震发生后,附近地区发生余震的概率很大。这个由圣克拉拉大学的助理教授George Mohler开发的数学模型用来对余震发生的模式进行识别,从而能够预测新的余震。而犯罪数据也符合类似的模式,因此,能够输入模型进行分析。洛杉矶警察局把过去80年内的130万个犯罪记录输入了模型。如此大量的数据帮助警察们更好地了解犯罪案件的特点和性质。从数据显示,当某地发生犯罪案件后,不久之后附近发生犯罪案件的概率也很大。这一点很像地震后余震发生的模式。当警察们把一部分过去的数据输入模型后,模型对犯罪的预测与历史数据吻合得很好。
洛杉矶警局利用Mohler教授的模型进行了一些试点来预测犯罪多发的地点,并且通过和加州大学以及PredPol公司合作,改善了软件和算法。如今,他们可以通过软件来预测犯罪的高发地区。这已经成为警察们的日常工作之一。不过,让警察们能够相信并且使用这个软件可不是一件容易的事。
起初,警察们对这个软件并不感冒。在测试期间,根据算法预测,某区域在一个12小时时间段内可能有犯罪发生,在这个时间段,警察们被要求加大对该区域进行巡逻的密度,去发现犯罪或者犯罪线索。一开始,警察们并不愿意让算法指挥着去巡逻。然而,当他们在该区域确实发现了犯罪行为时,他们对软件和算法认可了。如今,这个模型每天还在有新的犯罪数据输入,从而使得模型的预测越来越准确。
除使用预测的方法来确定犯罪高发地区外,使用可视化方法将历史犯罪高发地区标记在地图上,效果更加直观。据美国中文网综合报道,2013年12月8日,纽约市警方(NYPD)发布了最新的纽约市犯罪地图,民众可上网浏览该地图。如图1-2-16所示,民众在网上可直接看到城市犯罪信息,结合地图,显示当地本月、本年度和前一年的犯罪记录。民众可通过地址、邮编或警方辖区来查询该地图。据《纽约邮报》报道,警察局长Ray Kelly在一份声明中说:“相比以往,纽约目前十分安全,今年(2014年)的谋杀率处于历史最低水平。政府依靠数据来打击犯罪行为,这张地图可以帮助纽约人和研究者了解纽约各个地区的犯罪情况。”

图1-2-16 基于可视化技术查询犯罪情况
从此案例可以看出,警务大数据已经开始落地,并逐步深入。随着大数据时代的来临,数据分析势必成为预防和打击犯罪的新武器。
4.动作预测
动作预测指的是基于人们以往或最近的行为,对其即将发生的肢体动作做出预测的过程。在电竞游戏领域,玩家通过丰富的对战经验,能够对敌方的下一步动作进行预估,并基于此提前进行反应,以便有取胜的可能。在篮球、足球、格斗、拳击等活动中也是一样,对手一动就知道下一步动作,经过准确的预判,便可以提前做出格档动作,以赢得比赛。
当然,准确预判的能力没有那么容易获得。通常只有累积了大量实战经验加上强大的反应能力才有可能实现。目前,已经在研究基于人工智能(AI,Artifical Intelligence)技术来学习动作预判的能力。此前有研究者对此进行了尝试,他们通过Kinect设备采集人的动作数据,然后使用机器学习方法来训练模型,基于预测数据模拟人的下一步动作。可这样的方式并没有什么作用,因为人类在行动时很不方便,采集设备的成本也相对较高。
当然,对于AI动作预测,科学家也在尝试用别的方法来实现。
人类的很多行为,实际上和语言相关,比如老师在上课或演讲时,总会使用肢体动作来表达,如图1-2-17所示。UC Berkeley和MIT都对这个问题进行了尝试,研究人员收集了144个小时的演讲视频,包含了10个人的数据。首先,基于这些视频,研究人员通过视频分析算法识别出图像中演讲者的动作;然后,使用技术手段将演讲者的语言数据与动作数据对应起来;最终,训练出来的AI程序可以通过声音预测人类的下一步动作。

图1-2-17 通过说话声音来实现
除了通过声音预测人类动作,东京工业大学曾在IEEE上发表了一篇论文,实现了在简单背景下对人类的动作捕捉和精准预测。该方法利用的是残差网络,将人体的姿势图像转换成二维数据,而这种数据包含了类似地理位置数据的特征,通过使用LSTM算法学习时序位置,进而实现位置的预测,实际上可以进一步解析成人类的动作预测结果。这种方式对于预测对象所处的背景有要求,但是效果很好,能够预测人类在0.5s以后的动作。
AI除了能够实现简单的单步预测,还可以对人类复杂的行为进行预测。德国波恩大学就做过类似尝试,研究人员将RNN和CNN结合在一起,这样深度学习网络就变得更加复杂,基于对不同动作以及其标签数据,既可以预测动作的细节,又可以预测不同标签出现的序列。使用这种方法,AI通过不到两小时的学习,就能够在人类制作沙拉时,预测剩余的80%的动作。
从以上案例可以看出,AI预测已经呈现出落地的趋势,很多专题还在不断地研究优化当中,AI预测给我们带来的价值不容小觑,随着AI技术的进一步发展,AI预测技术也必将能带来更多的惊喜。