三、大数据算法新趋势
(一)深度学习(Deep Learning)
深度学习是机器学习中一种利用空间相对关系对数据进行表征学习的新型机器学习模式,通过构建深层人造神经网络,组合多层硬件和软件在层级间移动大量数据,每层都要根据学习内容提供自己的数据表示方法,再将学习结果传递到下一层。当前,人工智能=深度学习+大数据,是一个最具时代精神、也最被普遍接受的认识。人工神经网络受1943年首创的人类神经网络计算模型的影响而开发,并在1957年面世的感知器(Perceptron)系统中得到第一次软件体现——一种基于双层网络的模式识别算法。但因计算能力有限而被弃,近年由于互联网和大数据技术的出现而再度引起关注。互联网经济时代,金融服务会更多体现在场景模式的应用中。机器深度学习通过在大数据中寻找“模式”,在这些模式的基础上运用一定算法再次统计分析,在毋须过多人工介入和人为干涉的情况下,利用分析所得预测事件结果。通过分析持续产生的越来越多的数据,构建并不断完善预测消费者行为的各种数学模型,在此基础上进一步生成“深度”计算模型,如此不断深化及复杂化学习结果,从而使预测结果越来越趋近现实情况的演变。
深度学习将从一个输入中产生一个输出所涉及的计算可以通过一个流向图(Flow Graph)来表示:流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。考虑这样一个计算集合,它可以被允许在每一个节点和可能的图结构中,并定义了一个函数族。输入节点没有父节点,输出节点没有子节点。
图5 包含多个隐层的深度学习模型
这种流向图的一个特别属性是深度(depth):从一个输入到一个输出的最长路径的长度。
最近几年以深度学习为代表的人工智能在应用层面取得突破性的进展一个重要原因就是大数据时代的到来,越来越多的数据产生了,这些数据中蕴含着很多经验和模式。为了教给人工智能新的技巧,需要将大量的数据输入模型,用以实现可靠的输出。目前,人工智能的突破主要依赖于基于神经网络的机器学习。机器学习主要在大数据寻找一些“模式”,然后在没有过多的人为解释下,用这些模式来预测结果。在这种方法之下,随着数据量的积累,系统会越来越好。相比过去人工智能的方法很难受益于数据量的提升,新的方法之下,20%的贡献来自方法的改进,80%来自数据量的提升,从而实现依靠数据量推动的,系统从量变到质变的飞跃。
大量数据(特别是标识数据)的支持是人工智能最核心的需求。无论是模式识别还是神经网络,不管是机器学习训练还是算法优化,都需要大量数据的“喂养”。例如,AlphaGo的成功之处就在于其载有十几万份人类6~9段职业棋手的对弈棋谱的数据库,AlphaGo利用其模仿人类常见的落子方式。通过大数据学习,人工智能算法发挥越来越重要的作用,尤其是近期深度学习的进展对感知智能(包括图像和语音识别)的精度提升贡献巨大。
大数据蕴含了丰富的信息维度,可以比喻为提供了必须的血液和能量,人工智能就好像“大脑”,对这些信息进行分析识别和知识发现,具体的行业应用则好像“躯干”,基于信息执行决策。国内外知名的互联网公司对人工智能都显示出高度的关注,认为人工智能和互联网大数据的结合会产生很多创新点,是驱动未来技术和商业模式的引擎。这些互联网公司都投入大量的人力和物力进行一些前沿性的研究和探索。在过去的5年中,有超过30家人工智能(AI)企业被包括谷歌、IBM、雅虎、英特尔以及近期活跃起来的苹果和Salesforce等商业巨头收购。
国内外金融领域已经开始探索深度学习的应用。其中在个人生物识别方面,例如人脸识别和语音识别等应用近年取得较大进展。国外的大数据公司和征信机构也在研发深度学习工具和接口来提升目前的消费者信用评分的性能。
虽然如今深度学习科技已经进一步点燃了人工智能(AI)之火,但这项技术却常因需要大量的数据而备受诟病。人们也一直在争论,究竟深度学习需要多少数据才足够呢?根据谷歌的资深研究人员表示,那些至少拥有数以万计或是十万计的客户群体的公司才需要考虑是否使用深度学习技术的问题,如果只有十个样本,那与深度学习无关。可见深度学习是典型的大数据算法。
(二)复杂网络分析(Complex Network Analysis)
复杂网络是指由数量巨大的节点和节点之间错综复杂的关系共同构成的网络结构。复杂网络是复杂系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。
复杂网络简而言之即呈现高度复杂性的网络。其复杂性主要表现在以下几个方面:(1)结构复杂:表现在节点数目巨大,网络结构呈现多种不同特征。(2)网络进化:表现在节点或连接的产生与消失。例如World - wide Network,网页或链接随时可能出现或断开,导致网络结构不断发生变化。(3)连接多样性:节点之间的连接权重存在差异,且有可能存在方向性。(4)动力学复杂性:节点集可能属于非线性动力学系统,例如节点状态随时间发生复杂变化。(5)节点多样性:复杂网络中的节点可以代表任何事物,例如,人际关系构成的复杂网络节点代表单独个体,万维网组成的复杂网络节点可以表示不同网页。(6)多重复杂性融合:即以上多重复杂性相互影响,导致更为难以预料的结果。例如,设计一个电力供应网络需要考虑此网络的进化过程,其进化过程决定网络的拓扑结构。当两个节点之间频繁进行能量传输时,他们之间的连接权重会随之增加,通过不断的学习与记忆逐步改善网络性能。
复杂网络一般具有以下特性:
第一,小世界。复杂网络以简单的措辞描述了大多数网络尽管规模很大但是任意两个节(顶)点间却有一条相当短的路径的事实。以日常语言看,它反映的是相互关系的数目可以很小但却能够连接世界的事实,例如,在社会网络中,人与人相互认识的关系很少,但是却可以找到很远的无关系的其他人。正如麦克卢汉所说,地球变得越来越小,变成一个地球村,也就是说,变成一个小世界。
第二,集群即集聚程度(Clustering Coefficient)的概念。例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集聚程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分布和相互联系的状况。例如,它可以反映这个朋友圈与另一个朋友圈的相互关系。
第三,幂律(Power Law)的度分布概念。度指的是网络中某个顶(节)点(相当于一个个体)与其他顶点关系(用网络中的边表达)的数量;度的相关性指顶点之间关系的联系紧密性;介数是一个重要的全局几何量。顶点u的介数含义为网络中所有的最短路径之中,经过u的数量。它反映了顶点u(即网络中有关联的个体)的影响力。无标度网络(Scale - free Network)的特征主要集中反映了集聚的集中性。
在大数据时代,可以研究的实体数据对象(例如金融机构或者是公司)的数量越来越多,这些数据实体之间的关联性也增强,而且会动态变化,这些特点利用传统的数据分析方法中的特征向量空间无法准确描述。复杂网络成为大数据时代对于复杂系统问题建模的利器,而且网络可视化效果更能帮助决策者快速理解实际问题。
近年来,用复杂网络的概念来理解和解释金融市场中的各种现象的研究也受到了广泛关注。国外金融机构和中央银行、金融监管机构已经将复杂网络技术运用于研究系统性风险、防欺诈、金融稳定性和危机蔓延等问题上。这种新研究用来满足迫切的市场需求:理解金融市场的结构和动态变化;解释和预测不同金融实体可能产生的相互作用的结果。2013年3月国际一流的学术期刊Nature Physics推出了题为“Complex Network in Finance”的专辑,其动因在于,2008年金融危机的爆发暴露了金融系统和经济系统建模过程中存在明显的缺陷,在这次危机中宏观经济模型忽略了对系统性风险的综合考虑,不仅不能预测这次经济危机,而且也不能很好地解释经济危机,专业人士希望通过复杂网络和金融交叉学科的研究提供对于经济和金融网络的更加基础性的理解,同时增强政策制定者实际的洞察力。
复杂网络分析方法对评估金融稳定发挥至关重要的作用。以企业之间的信贷担保关系为例,这是一种非常重要的关联关系。信贷担保关系与企业的违约风险以及区域的系统性风险密切相关。近年来,在该领域的研究工作取得初步成效,结果如图6所示。
图6 利用复杂网络给东部某地区的企业担保圈建模
(三)自然语言处理与文本挖掘
在大数据时代,大部分数据都是结构化的数据。非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70%~80%以上。非结构化数据的分析算法是大数据价值挖掘的重点和难点。自然语言处理(Natural Language Processing,简称NLP)和文本挖掘(Text Mining)的算法就是用来解决非结构数据分析问题。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
自然语言处理的困难可以罗列出来很多,不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。
自然语言处理算法在大数据应用中已经取得重要成果。作为自然语言处理的重要应用,搜索引擎逐渐成为人们获取信息的重要工具,涌现出以百度、谷歌等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家,谷歌、百度等公司都提供了基于海量网络数据的机器翻译和辅助翻译工具;基于自然语言处理的中文(输入法如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机和手机也正大行其道,协助用户更有效地工作学习。
同时对于非结构化大数据的处理也面临着挑战,如何有效利用海量非结构化数据已成为制约信息技术发展的一个全局性瓶颈问题。单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,两者互相补充,才能够更好、更快地进行自然语言处理,更好发掘非结构化大数据的价值。