1.2 统计学与深度学习
统计学是一门古老的学科,其作为机器学习的理论基础这一事实在从20世纪60年代就开始被学术界所认可。直到20世纪90年代,伴随着统计学理论的基本成熟,研究者们开始尝试用统计学的方法分析并预测数据的分布,由此产生了著名的支持向量机算法,如今这种算法已被广泛应用于数据分析、模式识别、回归分析等各个领域。
1.2.1 统计学与深度学习的关系
深度学习作为机器学习中重要的分支,因此与统计学同样具有密不可分的关系。通常可以将统计学分为两大类,分别为用于组织、累加和描述数据中信息的描述统计学和使用抽样数据来推断总体的推断统计学。深度学习则是通过大量的样本数据学习总体规则的方法,可见深度学习是统计学对实践技术的延伸。
另外,实际的应用领域中经常需要处理的数据都具有随机性和不确定性,对这些数据最好的描述方式就是通过概率来进行描述。例如,在图像识别中,若要对模糊或残缺的图像进行识别,即在不确定的条件下实现图像的正确识别,基于统计学的深度学习由于可以处理数据的随机性以及不确定性,因此可以在恶劣的条件下实现图像的精准识别。
深度学习的特点在于先设计能够自我学习的神经网络,然后将大量的数据输入网络中进行训练,通过训练神经网络能够从数据集中学到数据的内在结构和规律,从而对新数据做出预测。
从统计学的角度来看,深度学习用来训练的数据集即为样本,学习的过程即为对总体信息进行估计。对于无监督学习来说,每一个输入样本是一个向量,学习过程相当于要估计出总体的概率分布。而对于监督学习来说,每个输入样本x还对应一个期望的输出值y,称为label或target,那么学习的过程相当于要估计出总体的条件概率分布。这样,当系统遇到新的样本时,就能给出对应的预测值y。
1.2.2 基于统计的深度学习技术
最典型的基于统计的深度学习技术有受限玻耳兹曼机以及生成对抗式网络。
受限玻耳兹曼机(Restricted Boltzmann Machine, RBM)是一种可用随机神经网络来解释的概率图模型。随机神经网络的核心在于在网络中加入概率因素,而其中的随机是指这种网络中的神经元是随机神经元,其输出只有两种状态(0或1),而状态的取值根据概率统计的方法确定。RBM属于深度学习中常用的模型或方法,其结构如图1-2所示。
图1-2 RBM结构图
其中,下层为输入层,包括n个输入单元vn,用来表示输入数据;上层为隐藏层,包含m个隐藏层单元hm, RBM具有层内无连接、层间全连接的特征,这一特点可以保证RBM各层之间的条件独立性。
由于RBM为概率模型,而训练RBM网络的实质就在于能够使RBM所表达出的概率分布尽可能接近真实样本的分布。而实现这个目的RBM经典训练算法就是对比散度(Contrastive Divergence, CD)算法,即在每次训练过程中,以数据样本为初始值,通过Gibbs采样获取目标分布的近似采样,然后通过近似采样获得目标梯度,取得最终的结果。简单来说,统计学在受限玻耳兹曼机中的应用过程为对图像进行联合分布概率的描述,通过训练可以使RBM“学”到输入数据的统计规律,从而达到提取特征的目的。
RBM网络是以统计学为基础进行构建和训练的,是最典型的基于统计的深度学习技术。
生成对抗式网络(Generative Adversarial Networks, GAN)是一种新型网络,是由Goodfellow等人在2014年提出来的。其基本思想源自博弈论中的二人零和博弈,网络模型由一个生成网络和一个判别网络构成,生成网络用来学习样本的真实分布并用服从某一分布(高斯分布或均匀分布)的噪声生成新的数据分布,判别网络用来判别输入是真实样本还是生成网络生成的样本,通过生成网络与判别网络的对抗学习进行网络的训练。GAN的优化过程是极小极大博弈(Minimax game)问题,具体是指判别网络的极大化(即判别网络要尽可能区分真实样本和生成网络生成的样本)和生成网络的极小化,即生成网络生成的样本要尽可能“欺骗”判别网络,使其认为是真实的样本,优化目标为达到纳什均衡,使生成网络估测到数据样本的分布。GAN的计算流程与结构如图1-3所示。
图1-3 生成对抗式网络流程与结构
生成对抗式网络作为一种基于统计学的新型深度学习技术,通过模型学习来估测其潜在分布并生成同分布的新样本,被广泛应用于图像和视觉、语音与语言、信息安全等领域,如今许多研究者试图将其与强化学习结合进行进一步的研究。
作为深度学习的重要理论基础,未来统计学还有非常大的发展空间。因为深度学习模型具有较好的非线性函数表示能力,根据神经网络的通用近似理论(universal approximation theory)可知,对于任意的非线性函数一定可以找到一个深度学习网络来对其进行表示,但是“可表示”并不代表“可学习”,因此需要进一步了解深度学习的样本复杂度,即需要多少训练样本才能得到一个足够好的深度学习模型。这些问题都有待于从理论层面进行突破,统计学对深度学习的进一步发展有着十分重要的意义。