1.3 基于神经网络的遥感图像分类_基于神经网络的监督和半监督学习方法与遥感图像智能解译-QQ阅读男生中文历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3 基于神经网络的遥感图像分类

经过几十年的发展，遥感领域已经成为当今最活跃的科技领域之一，在国民经济的各个方面有着广泛而深入的应用。随着人工神经网络理论的快速发展与成熟，神经网络也逐渐成为了遥感图像分类中的有效手段^［79］。与传统的数理统计分类方法相比，神经网络遥感图像分类最大的优势在于对训练样本的分布没有严格的限制，并能更容易地融入更多的其他辅助分类数据。本节将首先介绍遥感图像分类技术，并在此基础上介绍基于神经网络的遥感图像分类，最后将对几种常见的神经网络模型进行简要介绍。

1.3.1 遥感图像分类技术概述

遥感（Remote Sensing，RS）即遥远感知，是在不直接接触的情况下，对目标或自然现象远距离探测和感知的一种技术^［80］。遥感技术从远距离采用高空鸟瞰的形式进行探测，包括多谱段、多时相和多角度的遥感图像以及多次增强的遥感信息，能提供综合系统性、瞬时或同步性的连续区域性同步信息，对地球的资源与环境进行探测和监控。目前，遥感技术发展迅速，遥感图像分辨率已能够达到dm量级，这都使得遥感技术在土地遥感监测、地理信息提取时能够准确、快速地形成成果，广泛应用到国民经济的各个领域，对于推动社会进步、经济发展、环境保护、资源开发以及国防建设起了重大的作用^［81 ^，82］。例如，由遥感观测到的全球气候变化和厄尔尼诺现象，以及全球荒漠化、海洋冰山漂流等动态现象已经引起了人们的广泛关注和重视；在海洋渔业、海上交通等研究中，遥感技术已经成为重要工具；矿产资源、土地资源、森林资源等调查都缺少不了遥感手段的应用。此外，在灾害监测、预报和评估中，遥感技术都能起到至关重要的作用^［83］。

目前，遥感数据的常用信息源有NOAA、MSS、TM、SPOT等航天遥感数据及部分不同尺度的航空照片。不同类型的遥感数据具有不同的信息提取精度，从而适应于不同的研究尺度。NOAA气象卫星地面分辨率低，最小为1km。可用于全球及洲际尺度的土地利用/土地覆盖的遥感变化。应用NOAA/AVHRR数据进行此范围的植被变化和土地研究始于1981年。最早应用多时相植被指数（NDVI）数据进行洲际尺度的土地覆盖研究者是Tucker和Townshed。通过利用NOAA图像开发的1km土地覆盖数据库可进行地表覆盖对中尺度大气环流和区域天气影响检验、分析气候干湿变化及季节降水、温度和蒸发对地表植被及其动态变化的依赖性和敏感性。

遥感图像智能分类是通过运用模式识别理论，利用计算机技术将遥感图像分成若干地物类别的方法，主要是通过利用各类地物的光谱特征来选择特征参数，再将特征空间划分为不同的特征子空间，然后将图像内各个像元按照某种规则或算法划分到各个子空间中去，实现对遥感图像的分类^［84］。最常用的方法是基于地物光谱特征数据的统计模式识别法。从而统计模式识别的关键是提取待识别模式的一组统计特征值，然后按照一定的算法作出决策，从而实现对数字遥感图像的分类。

遥感图像分类主要是依据地物的光谱特征。任何地物都有它独特的电磁波特性，但是由于光照条件的不同、大气层的干扰和其他环境因素的影响，同一地物的电磁波特征值并不是固定不变的，这些特征值有一定的离散分布性^［85］。不过属于同一类型的地物，总是具有相似或相近的特征值，其特征值的离散分布符合概率统计规律，即以某一特征值为中心，有规律地分布于多维空间。所以可以运用概率统计理论，通过计算机对大量遥感图像的计算分析、归纳对比，可以识别出各类物体的类别及分布。

要识别出光谱集合中的数据以及对应的地表植被类型，可以应用数学模式识别方法或模式分类以及它们派生的机器学习技术来实现，如人工神经网络等。模式是像素本身，或者严格来说是像素矢量。该矢量是包含有遥感图像各个波段亮度值的集合，以列的形式排列分类就是利用现有的光谱数据把像素标记为特定的光谱信息类。

遥感图像分类是遥感图像信息处理中最基本的问题之一，遥感技术很多方面的应用都涉及遥感图像分类问题的研究，所以说，遥感图像分类方法性能的提高直接制约着遥感技术的应用发展。无论是专题信息提取、变化检测，还是专题地图制作、遥感数据库的建立等都离不开遥感图像分类技术。快速、高精度的遥感图像分类算法是实现各种实际应用的前提。许多研究者都在不断试用、改进以及探索新的方法^［86 ^，87］，不断提高遥感图像自动分类算法的精度和速度。

1.3.2 基于神经网络的遥感图像分类概述

在遥感图像地物识别的研究中，最初的目视解译已暴露出许多不足，如速度慢、重复性差、解译结果受人为经验及图像的质量等因素的影响等，而传统的计算机识别虽然克服了目视解译的一些缺点，但却没有继承目视解译最关键的优点，未能充分发挥专家的知识和经验。

人工神经网络（Artificial Neural Networks，ANN），简称为神经网络（NN），是由大量的信息处理单元（也称神经元）相互连接的复杂网络，用来模拟人脑神经系统的功能和结构，它是一种简化的人脑数学模型。人工神经网络研究开始于20世纪40年代对与神经网络有关的神经科学的研究。

人工神经网络具有的非线性适应性信息处理能力，克服了传统人工智能方法对于直觉，如模式识别、语音识别、非结构化信息处理方面的缺陷，使其在专家系统、模式识别、智能控制、组合优化、预测等许多领域得到了广泛的应用，特别地在遥感图像分类中取得了较好的结果^［88］。人工神经网络与其他传统方法相结合，将推动人工智能和信息处理技术的不断发展。近几年来，人工神经网络正向模拟人类认知思维过程的道路上更加深入发展，与模糊系统、遗传算法、进化机制等相结合形成计算智能，成为人工智能的一个重要研究方向，并将在实际应用中得到应用和发展。另外，将信息几何应用到人工神经网络的研究，为人工神经网络的理论研究开辟了新途径。

人工神经网络分类方法是近年来研究较多的一种分类方法，它不需要任何有关统计分布的先验知识和预定义分类中的各数据源的先验权值，能够处理不规则的复杂数据，并且容易与辅助信息相结合，获得更好的分类结果。与传统的分类方法相比，神经网络分类方法通常可以获得更高精度的分类结果，尤其应用在复杂类型的土地覆盖分类上，更显示了其优越性。实践证明，在数据处理的速度和地物分类的精度上，神经网络分类方法优于传统的最大似然方法，当数据资料偏离假设的高斯分布时，其优越性表现得更突出。

人工神经网络遥感图像分类是通过建立统一框架，实现对图像的视觉识别和并行推理，是近年来发展起来的综合数据分类方法之一。其目标是利用人工神经网络技术的并行分布式知识处理手段，以遥感图像为处理对象，建立基于ANN的遥感图像分类专家系统。神经网络方法具有传统数值计算方法所没有的一些优点，其最大的优点在于其极强的非线性映射能力。它具有下列优势：①计算过程大量并行、高度分布，这使其能高速处理大量数据和求解非常复杂的问题；②具有自学习、自适应和自组织能力，它能利用已知类别遥感图像样本集的先验知识，自动提取识别规则；③能实现各种非线性映射和求解各种十分复杂和高度非线性的分类和模式识别问题。目前，人工神经网络技术在遥感图像分类处理中的应用主要有单一的BP（Back Propagation，反向传播）神经网络^［84］、模糊神经网络^［89］、多层感知器^［90］、径向基函数（RBF）网络^［79］、Kohonen自组织特征分类器^［91］、Hybrid学习向量分层网络^［92］等多种分类器。

下面介绍几种常见的神经网络模型。

（1）径向基函数神经网络

1985年，Powell提出了径向基函数（Radial Basis Function，RBF），简单来说，径向基函数是一个取值仅仅和到原点间距离有关的实值函数，它的提出用于解决多变量差值问题，同时RBF理论为多层前向网络的学习提供了一种新的方法。1988年，Broomhaed和Lowe首先将径向基函数应用于神经网络设计，构成了径向基函数神经网络^［93］。径向基函数神经网络不仅具有良好的推广能力，而且避免了像BP算法那样繁琐的计算，使学习能得以快速地实现，近几年被广泛地应用研究以解决各种问题。

径向基函数神经网络的设计被视为一个高维空间中曲线拟合（逼近）问题，在此观点下，学习过程即为在特征空间中寻找一个能够最佳拟合训练数据的曲面，泛化过程即为超曲面对测试数据进行插值。最基本的径向基函数神经网络是一种3层前向网络，这3层分别为输入层、隐含层和输出层，其结构的合理性可由Cover定理^［94］加以保证。其中输入层由信号源节点构成，起到和外界环境进行连接的作用；隐含层仅有一层，其中隐藏节点提供径向基函数将输入向量扩展至隐含层空间，节点个数视具体问题而定，该层的作用是从输入空间到隐含层空间之间进行非线性变换，由于高维空间中分类问题更可能是线性可分的，而且隐含层空间的维数越高，对输入—输出映射的逼近就越精确，因此隐含层空间通常都有较高的维数，但随之而来的问题便是具有较高的非线性的复杂程度。最后，第三层输出层是一个线性映射，为输入层的激活信号提供响应。

径向基函数神经网络隐含层单元的激活函数为径向基函数，通常为具有局部接受域，即仅当输入落在输入空间中一个很小的指定区域中时，隐含层节点才做出有意义的非零响应。其中最为常用的径向基函数形式是高斯函数。

构成径向基函数神经网络的基本思想是：用径向基函数作为隐含层单元的“基”，构成隐含层空间。当径向基函数的中心点确定后，这种映射关系也就确定了。而隐含层空间与输出层空间的映射是线性的，即网络的输出是隐含层节点的线性加权和。由此可见，从整体上看，网络由输入到输出的映射是非线性的，而隐含层到输出层的映射却是线性的。

构建径向基函数神经网络的关键和难点就是隐含层的生成，这包括隐含层节点数目的确定、隐含层中心和宽度的确定。隐含层节点的数量影响着网络的复杂性以及网络的泛化能力。如果节点数量过少，网络模型就会受到限制，从而降低网络的泛化能力。另外，如果节点数量过多，也会使网络的泛化能力降低。隐含层中心位置的选取是最为关键的，不恰当的中心位置会使径向基函数神经网络无法正确反映出输入样本空间的实际划分，也就是说，无法实现从非线性的输入空间到线性的输出空间的转换。隐含层中心的宽度也是影响径向基函数神经网络分类能力的重要因素。宽度过大，类与类之间的界线变得模糊，分类精度不高；宽度过小，核函数覆盖的区域就小，网络的泛化能力就差。

由于学习收敛速度较快且能够有效避免局部极小值问题，径向基函数神经网络作为一种性能优良的前向型网络一直备受瞩目，其应用范围也越来越广泛。本书在第2章的2.2节将对径向基函数进行更详细介绍，并在第3章介绍基于径向基函数的集成监督学习方法。

（2）支持向量机

支持向量机（Support Vector Machines，SVM）是一种通用的广义前馈神经网络。支持向量机是有限样本条件下解决机器学习问题的通用方法，既有严格的理论基础，又能较好地解决小样本、非线性、高维数和局部极小点等实际问题，其核心思想就是学习机器要与有限的训练样本相适应^［95］。支持向量机是机器学习领域若干标准技术的集大成者，涉及最大间隔超平面、凸二次规划、稀疏解、Mercer核以及松弛变量等多项技术，在若干具有挑战性的应用中获得了良好的性能，是一个令人瞩目的发展方向。

统计学习理论中的VC维理论和结构风险最小化原则的提出都为支持向量机方法的产生打下了坚实的理论基础。其核心内容是由Vapnik及其领导的AT&T Bell实验室研究小组在1992—1995年间提出的，目前仍处在不断发展阶段。1992年，Boser、Guyon和Vapnik提出了最优边界分类器的概念^［96］，被认为是支持向量机的最初原型。1993年，Cortes和Vapnik研究了非线性情况下的最优边界分类问题^［97］。1995年，Vapnik首次完整地提出了基于统计学习理论的支持向量机方法。1997年，Vapnik、Gokowich和Smola提出了基于支持向量机方法的回归估计方法（Support Vector Regression，SVR）和信号处理方法^［98］。

近几年涌现出大量的理论研究成果，使支持向量机理论不断得到完善和发展，更为其应用研究奠定了坚实的基础。主要的研究成果体现在以下5个方面。

1）泛化能力的估计。对泛化能力的估计是支持向量机理论研究的重要内容之一，简单、准确和有效的估计方法是进行模型选择、参数优化以及核函数优化的基础。一些学者针对泛化性能进行了研究，提出了多种估计方法，它们包括留一法（LOO）、k-Fold交叉验证方法、“跨度（Span）”方法、Opper-Winther方法、Jaakkola-Haussler方法及Wahba-Lin方法等。

2）改进支持向量机。为了扩展支持向量机的应用范围或者克服它在某些方面的局限，通过改变其原始优化问题中的函数项、变量或系数，从而获得在某些方面具有突出优势或者适用于特定问题的改进支持向量机。例如，可调罚参数的C-SVM系列^［95 ^，99］，用于分类和回归问题的ν-SVM系列^［100］，将最小二乘线性系统引入到支持向量机后提出的LS-SVM^［101］、One-Class SVM^［102］、Lagrange支持向量机（LSVM）^［103］、Proximal支持向量机（PSVM）^［104］、简化支持向量机（RSVM）^［105］、光滑向量机（SSVM）等^［106］。

3）核函数的研究。支持向量机的泛化能力与核函数密切相关，如何构造与实际问题相适应的核函数一直是支持向量机研究的重要课题。Amari提出利用试验数据修正已有核函数，使之逐步与问题相吻合。针对文本分类、图像处理（分类、边缘检测、识别等）、基因序列分析等具体问题需要构造不同类型的核函数，作为度量样本间相似性的尺度，以求获得的泛化性能优于高斯核或多项式核。

4）支持向量预选取和简化。观测样本中占少数的支持向量决定了支持向量机的解。因此，如果能够依据样本的几何分布信息或者密度信息直接估计出支持向量的近似集合，并在该近似集上进行训练，就能够显著加快支持向量机的学习速度。把此类方法称为“支持向量预选取方法”。目前已经提出的方法包括TransRed和GetBorder方法、类中心距离比方法、“guard向量”方法、模糊预选取方法等。

另外，如果支持向量数目过多，势必导致决策过慢，不利于应用到具有实时性要求的模式识别问题。因此，在对支持向量机的泛化性能影响最小的前提下，研究缩减支持向量的数目是有积极意义的。目前已经提出的方法包括“原像”法、“近似原像”法、去线性相关性的方法及“Bottom-up”方法等。

5）处理多类问题。支持向量机是针对二分类的模式识别问题而提出的，如何有效地将其扩展到多类问题是当前理论研究的一个重要内容。目前，构造多分类支持向量机的方法主要有两种。第一种方法的基本思想是通过组合多个二值支持向量机分类器来解决多分类问题，如一对多（one-against-rest）、一对一（one-against-one）、DAG-SVM、ECOC-SVM等方法；第二种方法直接将二值支持向量机扩展成多值支持向量机，但目前存在目标函数复杂、计算复杂度高、难以实现等局限，有待进一步研究。

支持向量机作为一种广义的前馈神经网络，根植于统计学习理论，具有较好的学习泛化能力，在本书第4章将介绍几种基于支持向量机的监督学习方法，第7章则将介绍基于支持向量机的半监督学习方法。

（3）自适应神经网络

自适应神经网络是一种基于自适应谐振理论（Adaptive Resonance Theory，ART）的特殊神经网络。多数神经网络采用分布式的知识表达形式，即单个神经元或单个连接权的具体意义都无法给出清晰的解释，这使得多数神经网络都成为“黑箱”模型，模型通过训练获得的知识隐含在大量的神经元阈值和连接权值中。而自适应神经网络则在网络结构解释性方面有突出的优势。

以Grossberg为代表的波士顿学派深入研究了自适应谐振理论，为解决竞争学习过程中的“稳定性-可塑性”两难问题（Stability-plasticity Dilemma）而提出的一种算法模型。该模型不仅较好地实现了对生物神经系统记忆形式的模拟，还具有突出的知识解释能力，模型的权值具有明确的含义，并可以表示为规则直接使用。Carpenter、Grossberg等^［107］研究者根据该模型的思路所做的工作取得了丰富的成果，自适应谐振理论因此也成为神经网络的一个重要分支。这些成果包括：1987年，建立了ART1模型，能够稳定地学习任何二值输入序列。该模型的关键是自上而下的学习期望对自下而上的信息传播施加注意力控制，从而防止了已学到的知识被新学习的信息覆盖。此后又相继建立起ART2和ART3两个模型，使模型的稳定性得到进一步提升。在1991年提出一种ARTMAP模型，该模型是两个ART1模块的组合，利用一个匹配场实现互联，从而能稳定地对任意输入模式序列进行监督学习。1992年，对ARTMAP进行改进，使用两个Fuzzy ART模块代替原来的ART1模块，从而构建出一种Fuzzy ARTMAP网络。

作为一种发展较为全面的竞争型网络模型，Fuzzy ARTMAP在较好地模拟生物神经系统的记忆形式的同时，也同样具有较强的知识解释能力。该网络的最大特点是能够根据样本分布特性自适应地确定子类别节点，从而更好地拟合样本数据的分布模式。Fuzzy ARTMAP网络在多个领域都取得了成功应用。例如，Parsons和Carpenter^［108］将Fuzzy ARTMAP网络用于信息融合与空间数据挖掘，取得令人满意的结果。Palaniappan等^［109］将Fuzzy ARTMAP网络作为核心技术建立了“人脑-计算机”交互系统。Rubin^［110］使用Fuzzy ARTMAP网络分析了多波段雷达信号剖面，试验结果证明，该网络可以有效提升分类精度，并有效降低对存储空间的需求。Downs等^［111］在医疗模式分类问题应用Fuzzy ARTMAP网络，优化了特征提取以及决策判定的效率。Aggarwal等^［112］在研究中发现，在复杂工况下Fuzzy ARTMAP网络仍然能高效地完成故障诊断任务，在复杂回路传动系统故障诊断的过程中，Fuzzy ARTMAP网络比BP等其他神经网络更为适用。Tan等^［113］在ARTMAP网络中引入动态延迟调整算法，弥补了原方法中子类范围重叠的缺点。Carpenter和Markuzon^［114］在Fuzzy ARTMAP网络中引入分布式预测和子类统计技术，使网络的预测精度和训练速度都得以提升。Tan等^［115］在Fuzzy ARTMAP网络中引入剪枝策略，通过训练去除信息量较低的部分节点，有效地降低了网络的结构复杂度。Charalampidis等^［116］改进了Fuzzy ARTMAP网络的测试算法，从而增强了网络处理含噪声信号时的鲁棒性。Koufakou等^［117］引入交叉检验技术，很好地控制了模型训练过程中存在的过拟合问题，并且也简化了网络结构，然而交叉检验也会增加网络的计算复杂度。Gomez-Sanchez等^［118］利用互信息（Mutual Information）作为训练过程新的判定准则，从而有效解决了Fuzzy ARTMAP网络类别节点的扩张问题。Vakil-Baghmisheh和Pavesˇic＇^［119］简化处理了Fuzzy ARTMAP网络训练过程中新节点创建和遍历比较两个操作步骤，使网络的训练速度得到显著提升。

还有一些学者在研究Fuzzy ARTMAP网络的过程中，将ARTMAP网络与统计学方法相结合，构造出了多种性能出色的统计型ARTMAP网络。例如，Williamson^［120］通过更新和改造ARTMAP网络的节点选择函数及匹配跟踪函数，提出一种Gaussian ARTMAP网络。该网络不仅保留了原始Fuzzy ARTMAP网络模型自适应生成节点的能力，在处理含噪声数据的过程中也表现出良好的鲁棒性。Muchoney和Williamson^［121］基于Gaussian ARTMAP网络建立算法，自适应地提取了遥感图像中包含的植被指数（Vegetation Index，VI）信息。Vigdor和Lerner等^［122］提出一种Bayesian ARTMAP网络，根据Bayesian理论方法对基本Fuzzy ARTMAP网络结构与参数进行了重新调整：①将节点的激活函数替换为多维高斯函数；②实现了节点数目自适应缩减或增加的机制；③基于贝叶斯判决理论（Bayes’decision theory）来完成学习和推理过程；④给出节点与类别间的相互关系的概率描述。由于具有上述特点，Bayesian ARTMAP网络能够对分布重合的样本序列进行分类，而且在分类精度和鲁棒性上均比基本的Fuzzy ARTMAP网络有显著提升。Bayesian ARTMAP网络等统计型ARTMAP网络能够灵活地与其他统计学方法（如EM算法）进行整合，并凭借其自适应结构调整能力来弥补统计学方法本身的不足。

本书在第6章将ARTMAP神经网络与半监督学习方法相结合，介绍基于ARTMAP的半监督学习方法。

（4）极限学习机

极限学习机（Extreme Learning Machine，ELM）是一种新型单隐层前馈神经网络^［123］。极限学习机克服了传统神经网络基于梯度下降学习算法导致的训练速度慢、泛化性能差等问题^［124］。极限学习机随机地对单隐含层网络的隐含层节点偏移量和输入权值进行赋值，只经过一步运算即求出网络的输出权值的解析解，从而极大地提高了网络的训练速度。极限学习机算法的核心思想是，通过求解最小二乘问题来完成单隐含层神经网络的训练，过程中用Moore-Penrose广义逆来计算输出权值矩阵，从而避免了传统前馈网络反复迭代带来的巨大时间消耗，同时也保证了所求输出权值的数值解具有唯一性。而在运算速度上的优势之外，极限学习机还同时具有网络结构与训练样本相互独立的特性，即网络结构与数据不相关。

极限学习机已逐渐成为神经网络的新研究热点，在分类、函数逼近、人脸识别以及地形重构等众多领域都取得了成功应用^［125 ^，126］。学界对极限学习机进行了多方面的改进，这些改进模型大致可以归纳为增量型、优化型、替换型和组合型四类。

1）增量型极限学习机。基于一定的准则逐步增加隐含层节点个数，此类方法能随机地调整网络结构，适于处理批量数据。压缩型增量式极限学习机，通过剪枝处理去掉训练中数值幅度变化相对较小的隐含层节点，来降低网络结构的复杂度，从而进一步加快了模型的运行速度。将传统实数域的增量式极限学习机扩展到复数域，从而提升了复数函数逼近问题的求解速度。

2）优化型极限学习机。针对传统极限学习机网络结构庞大的弊端，对网络的权值和结构引入优化技术进行处理。研究表明，使用遗传算法对极限学习机的输入权值和隐含层节点进行选择，能够大幅降低极限学习机的结构复杂度，并提升其泛化性能^［127］；利用线性规划方法设计低复杂性的隐含层输出矩阵，也能提升模型的抗干扰能力^［128］；引入二次优化算法^［129］对输出权值进行调整也可取得较好的效果。

3）替换型极限学习机。通过使用sigmoid之外的其他类型函数作为隐含层节点的激活函数，来实现网络性能的提升。例如，用正弦和余弦相结合的特殊函数来替换原始极限学习机的隐含层节点激活函数，能够显著增强极限学习机的函数逼近能力，并提高算法的收敛速度^［130］。

4）组合型极限学习机。通过构造一种网络结构的共享框架，实现多个极限学习机共享相同的隐含层节点和隐含层输出矩阵，从而发挥组合学习的优势来获得分类精度的提升。在处理实时数据的学习和预测问题时，使用组合型极限学习机，有效地提升了实时预测的精度及预测速度^［131］。

上述改进中，优化型和组合型极限学习机，在性能上比传统的极限学习机虽然有所提升，但它们都是以破坏结构无关性（即网络结构和训练样本不相关的）为代价来实现的特性^［132］。当训练样本较少以至于不能反映数据空间全貌时，这些改进算法不但难以发挥优势，甚至可能对极限学习机的学习效果产生负面影响。作为极限学习机的一种特殊的增量式扩展，在线序列极限学习机算法^［133］（Online Sequential ELM，OS-ELM）在训练之初就先确定网络隐含层节点，从而保留了极限学习机的结构无关性。OS-ELM的使用范围较广，不但能处理逐一输入的样本序列，还能对大小不固定的样本集序列进行处理。此外，OS-ELM能够可逆双向推导，它可以基于后续迭代训练的结果反向对前面迭代过程中的参数状态进行回推，这一特性弥补了多数增量式方法单向训练模式的缺陷，从而为建立可逆半监督学习方法奠定了理论基础。

基于极限学习的监督学习方法将在本书第5章进行详细介绍，极限学习机在半监督学习领域的扩展将在本书第8章论述。

（5）其他神经网络

目前神经网络已有几十种不同的模型，除上面介绍的几种较为典型的网络模型外，还有许多重要的神经网络，如随机神经网络、Hopfield网络、Boltzmann机以及新近提出的回声状态网络。下面对这些网络进行简要介绍，以期使读者较为全面地了解神经网络模型。

依据神经生理学的观点，生物的神经元本质上具有随机性。生物神经网络重复接受相同刺激时，它的响应却并不相同，这说明随机性是生物神经活动的重要特征。随机神经网络（Random Neural Network，RNN）正是模仿生物神经网络的随机性特征而设计并应用的^［134］。随机神经网络的实现形式主要有两种：一种在神经元上采用随机性的激活函数；另一种则采用随机的连接权值，即在一般的神经网络中引入适当的随机噪声。第一种方法的代表是美国佛罗里达大学（UCF）的Erol Gelenbe教授于1989年提出的随机神经网络，也称为Gelenbe随机神经网络（Gelenbe Neural Network，GNN）^［135］。加入白噪声的Hopfield网络则属于第二种方法。

以Gelenbe随机神经网络为基础，Gelenbe等人于1991年提出一种二值前向型随机神经网络（Bipolar Random Neural Network，BRNN）模型。二值前向型随机神经网络由一对标准的互补Gelenbe随机神经网络构成，两个网络的神经元节点起到刚好相反的作用：正神经元采用与Gelenbe随机神经网络初始定义相同的运行机制，而负神经元则与Gelenbe随机神经网络初始定义刚好对称相反。每次负信号的到来，都会增加负神经元的优势，而正信号则能抵消负信号的作用。二值前向型随机神经网络已被证明可以作为广义函数逼近器逼近连续函数。

在1994年，Gelenbe等人又在Gelenbe随机神经网络基础上提出一种动态随机神经网络（Dynamical Random Neural Network，DRNN），该网络通过设定初始值并增加一个负反馈回路来提高网络性能，该负反馈采用Cohen-Grossberg型动态方程的形式实现。动态随机神经网络区别于Gelenbe随机神经网络的主要特点是，Gelenbe随机神经网络是一个开环系统，在初始化以后外界信号的输入就保持不变；动态随机神经网络则是一个闭环负反馈系统。在标志性的优化问题——旅行商问题（TS）上，动态随机神经网络已得到了成功应用。

Gelenbe等人在1999年进一步提出一种多类别随机神经网络（Multiple Class Random Neural Networks，MCRNNs）。该网络是为了建立一个基于神经网络的数学构架来同时处理不同种类信息，而对Gelenbe随机神经网络模型进行的一种合成。复合网络中不同的信号代表了不同类别，可以是声音处理中的不同频率以及图像处理中的不同颜色，又或者是多传感器信号处理中来自不同传感器的信号。

随机神经网络模仿生物神经网络，再现了神经元接受刺激并产生兴奋或抑制的生理机制，在细胞神经元数学模型中首次引入了随机性概念。而在此前的1982年，美国加州工学院物理学家Hopfield所提的反馈网络，同样也使用神经元的输出信号来表示兴奋或抑制的状态，并在联想记忆和优化计算中得到成功应用。Hopfield网络在处理优化问题时存在容易陷入局部极小点的缺点，为此研究者们考虑在神经元网络的神经元状态更新规则中引入随机的概念。模拟退火算法（Simulated Annealing Algorithm）就是据此引入的算法，它将神经网络的状态视为金属内的“粒子”，并将网络在不同状态下的能量函数视为粒子所处的能态。模拟退火算法设置一种控制参数T，如果T较大，则网络能量有较大可能由低向高变化；而如果T减小，则这种可能性也相应减小。可以将这个参数想象为温度，当温度参数逐渐减小时，整个网络的状态就像金属的退火过程一样趋于稳定。利用模拟退火算法对网络状态进行足够多次的更新后，网络状态将表现出Boltzmann分布的特性，即最小能量状态将以最大的概率出现，这就是Hinton在1985年提出的Boltzmann机模型，也被简称为BM（Boltzmann Machine）网络。在模拟退火算法和Boltzmann机模型中，神经元的输出不再如Hopfield网络那样完全由激活函数来确定，而会发生随机性改变，即输出为兴奋或者抑制由以能量E_i为变量的概率函数来决定，输出可以用{0，1}表示。

以网络结构而言，递归神经网络、Hopfield网络、模拟退火算法以及Bo ltzmann机的主要区别是，递归神经网络是一种开放型递归的单层网络；Hopfield网络是一种全反馈的单层网络；模拟退火算法没有固定的网络结构，仅仅是一种使能量函数跳出局部极值的算法；Boltzmann机包含可视层与隐含层两部分，是一种双向连接网络，而其中可视层又能分为输入和输出部分。与一般的多层网络结构不同，Boltzmann机的网络层次没有明显的界线。3种网络节点都是双向连接，而权值也对称相等。在Hopfield网络和Boltzmann机的网络中，权值连接表示神经元间的连接强度，而递归神经网络中权值连接是一个随机的概念，对应了被激活的神经元间发射信号的概率，这与细胞的生理机制更为接近。

回声状态网络（Echo State Network，ESN）的研究在最近几年才刚刚兴起^［136］，与流体状态机^［137］（Liquid State Machines，LSMs）一样，回声状态网络利用一个固定权值的储备池进行计算^［138 ^，139］。《科学》杂志在2004年对回声状态网络的报道引起了国内外学者对储备池方法的重视和对回声状态网络方法本身的关注。H.Jaeger等在2005年的国际神经网络联合会议（IJCNN）上，就现有的储备池方法进行了讨论，并取得一定程度的共识。讨论认为基于储备池的计算能取得令人鼓舞的效果，但这类方法仍存在一些不可回避的问题。

H.Jaeger认为，现有的储备池计算仍不够成熟，存在众多缺陷，他以“Reservoir Riddles（储备池之谜）”为题发表了他对于储备池计算的最新观点。作为回声状态网络的提出者，H.Jaeger在文章中非常坦诚地向读者介绍了储备池的研究现状，并提出储备池研究所存在的困惑和难以解决的问题。H.Jaeger指出，为使储备池技术更为完善，首先必须解决一个问题：“在一些情况下，状态信号自相关矩阵的特征值的分散度达到10的12次方甚至更高。伴随这一现象，会得到较大输出权值（很容易达到10的8次方量级）”。大的输出权值会导致以下不利后果：首先，较大的输出权值意味着泛化能力的低下；其次，存储大的输出权值需更高精度的计算和更大存储空间，因而难以通过廉价快速的超大规模集成电路（Very Large Scale Integration，VLSI）来实现；最后，在对具有输出反馈结构的网络进行训练时，也会因大的输出权值造成不稳定现象。

D.Prokhorov指出，处理实际含噪声的时间序列对于储备池方法仍是一个挑战，目前报道的研究也只限于不含噪声的情况。而在稳定性和回声状态属性方面的研究，最近也有一些报道^［140］。谱半径约束能够保证储备池运行的稳定，但此约束被有些学者认为过于松散。

与传统递归神经网络类似，储备池方法也能采用梯度下降以及卡尔曼滤波算法来完成训练。反向传播解相关（BackPropagation-DeCorrelation，BPDC）算法是由J.J.Steil提出的对储备池进行训练的一种在线训练算法^［141］。根据储备池方法的基本原则，反向传播解相关算法的设计使用结构固定的储备池处理输入信号，并根据当前输出误差的反向传播对输出层神经元间的连接权值进行更新。反向传播解相关算法的起源是Atiya-Parlos递归学习算法，因为每次学习只处理输出权值，相应的计算复杂度为O（N）（N表示储备池内部神经元节点的个数）。实际应用的结果表明，反向传播解相关算法的性能较最小均方误差算法（Least Mean Square，LMS）更为稳定。递归最小二乘算法（Recursive Least Square，RLS）是储备池的另一种在线学习算法。事实上，可以通过卡尔曼滤波理论来对递归最小二乘进行解释^［142］。回声状态网络属于一种线性参数模型，因此能直接应用卡尔曼滤波算法学习输出权值，这个特点刚好利于在线更新参数。相比于前面提到的梯度下降算法，卡尔曼滤波算法能使回声状态网络更快地收敛，而计算效率和精度也能显著提高。但是存在的问题是，由于过程中引入包括误差协方差矩阵在内的太多中间变量，当储备池的状态有较高维数时，在线计算的计算量就会很大^［143］。

上面提到的两种储备池学习算法，在形式虽类似于传统递归神经网络，但仅输出权值是网络的可调参数，避免了复杂的非线性计算，从而具有更高效率。就目前研究而言，伪逆方法^［144］是应用最广泛的储备池学习算法。该方法对系数矩阵进行奇异值分解，选出不是零的奇异值作为储备池输出权值的解。由于涉及计算的简单性，伪逆方法备受关注。

伪逆算法在简单易用的同时，也存在较多的缺点^［145］。首先是算法的不适定性，在多数应用场合，用来求解输出权值的系数矩阵表现出明显的病态特性，即奇异值分布趋于连续、缺少明显的跳跃变化，而最大和最小奇异值的差别较为悬殊，并具有较大条件数。由于无法确定系数矩阵的数值秩，导致产生较大的输出权值。如果储备池维数较高，这种现象会更加明显。另一个问题在于对储备池的泛化能力控制^［146］。通常的策略是选择尽量小规模的储备池，而在多数情况下，过小的维数使得储备池规模接近于传统的神经网络。对于某些数据，储备池的网络规模可能与传统的多层感知机相近甚至相同。于是就导致不能较好地发挥储备池方法的优点，并对储备池的泛化性能产生影响。