1.3 机器学习
1.3.1 机器学习的基本原理
深度神经网络是机器学习(Machine Learning)的一个分支。为了深入理解深度学习,我们有必要对机器学习的背景进行介绍。
机器学习的一个基本定义:给定一个计算机任务T和一个对任务T的性能度量P,在给出经验集E的前提下,计算机任务T在性能度量P上有所提升。这个利用经验集E提升任务T的性能P的方法就是机器学习。
一般机器学习的原理如图1-5所示。机器学习是用数据训练模型,用模型进行预测,根据反馈产生数据,更新模型和数据。所以,机器学习包括数据、模型与算法3个方面。
图1-5 机器学习的原理
自2012年以来,基于深度学习的图像分类方法AlexNet在ILSVRC 2012比赛中的突破性表现,引起了各方关注,使人工智能得到新的发展。
在过去的几年里,深度学习在解决语音识别与图像处理等机器感知问题方面,表现优越,甚至超过人类的水平。目前,深度学习还在尝试解决自然语言理解、推理、注意和记忆(RAM)等机器认知相关的问题。
现在的业界认为实现通用人工智能(强人工智能)的一种途径是深度学习和深度增强学习。
1.3.2 机器学习泛化能力
广义上讲,机器学习的成功依赖于它的泛化能力(Generalization)。通过在训练数据上的学习,然后能够推广到新的数据集上的能力称为泛化。
泛化后与正确的分类结果产生的误差称为泛化误差(Generalization Error,GE)。用数学公式表示为
GE=AE+EE+OE
其中,逼近误差(Approximation Error,AE)是指由于模型规模方面而产生的误差,要想减少这部分误差,需要扩大模型规模。
估计误差(Estimation Error,EE)是指由于数据集规模而产生的误差,要想减少这部分误差,需要增加可用数据的规模。
优化误差(Optimization Error,OE)是指由于算法设计而产生的误差,要降低这部分误差,需要设计更优的算法。
1.3.3 大数据是深度学习的基础
传统机器学习方法主要涉及数据、模型和算法3个方面。传统机器学习方法多采用手工或人为的特征选取,随着训练数据规模的提高,这种方法的提升效果就不明显了。而以深度学习为代表的方法,随着训练数据规模的扩大,提升效果显著,大大超过了传统机器学习方法。这种差异在语音识别、图像分类等机器感知类的任务上的体现尤其显著,如图1-6所示。
神经网络通过扩展网络结构的深度,扩大规模,甚至可以不断扩展下去,而且扩展之后所带来的效果是稳步提升的。通过规模的扩展,或者是提升网络的深度,是改进深度学习效果的途径。
图1-6 机器学习效果与数据规模之间的关系