基于免疫计算的机器学习方法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 仿生计算智能与机器学习

今天,世界上各种科学技术互相交叉、渗透,许多研究课题已经不能单靠一个领域的理论和方法来解决,许多边缘学科正是多个领域交叉发展的结果,许多研究领域的理论和方法也越来越复杂,在信息及控制科学领域尤为突出。人们研究的问题越来越复杂,而传统方法解决问题的能力越来越有限,这就促使人们不断寻求新的方法和手段,比如人工智能的研究及迅猛发展。这些研究有助于人类更好地理解自然和宇宙。事实上,生命现象和生物的智能行为一直被人工智能研究者所关注,尤其是近10年来人工智能的成就与生物有着密切关系,不论是从结构上模拟的人工神经网络,还是从功能上模拟的模糊逻辑系统,抑或是着眼于生物进化微观机理和宏观行为的进化算法,都有仿生的痕迹。也正是模仿生物智能行为,并借鉴其智能机理,许多解决复杂问题的新方法不断涌现,丰富了人工智能的研究领域。经过近几十年的研究与实践,人工智能研究者开始认识到,要想仿效或逐步接近人类百万年进化才达到的大脑高级智能行为,无论是传统智能,还是单独的模糊逻辑系统,或是人工神经网络都无法完成。仿生计算智能不但是人工智能研究的基础,也是其发展思路的新思考,更是方法论转变的新成果。随着模糊逻辑、神经网络、进化计算及人工免疫系统等受进化论影响的新方法的不断完善,其仿生特点也日益突出。生物是自然智能的载体,因此生物学理所当然是人工智能研究灵感的重要来源。从信息处理的视角来看,生物体就是一部优秀的信息处理机,生命现象和生物智能行为引起了许多研究者的关注,不论是结构模拟的人工神经网络,或是功能模拟的模糊逻辑系统,还是着眼于生物进化宏观行为的遗传进化算法和借鉴生物免疫机理的人工免疫系统,都是模拟生物智能行为,学习了其智能机理进而发展为人类可以使用的计算智能和信息处理技术。1994年6月,IEEE为促进多学科的渗透与结合,把人工神经网络、模糊技术和进化计算三个年会合并举行,在美国奥兰多召开了全球第一届计算智能大会(WCCI),出版了《计算智能、模仿生命》的论文集。此次会议是计算智能的第一次综合性大会,随后,计算智能成为大家关注的研究热点。目前国际上提出的计算智能(Computational Intelligence,CI)就是以人工神经网络为主导,与模糊逻辑系统、进化计算及信号与信息处理学科的综合集成;认为新一代的计算智能信息处理技术应是神经网络、模糊系统、进化计算、混沌动力学、分形理论、小波变换、人工生命等交叉学科的综合集成。尽管对计算智能的定义、内容,以及与其他智能学科分支的关系尚没有统一的看法,但计算智能的下列两个重要特征是人们比较认同的:

(1)计算智能与传统人工智能不同,主要依赖的是生产者提供的数字材料,而不是依赖于知识;它主要借助于数学计算方法的使用。这就是说,一方面,CI的内容本身具有明显的数值计算信息处理特征;另一方面,CI强调用“计算”的方法来研究和处理智能问题。需要强调的是,CI中计算的概念在内涵上已经加以拓展和加深。一般地,在解空间进行搜索的过程都被称为计算。

(2)计算智能这个概念的提出显然不仅具有科学研究分类学的意义,其积极意义还在于促进基于计算的或基于计算和基于符号物理相结合的各种智能理论、模型、方法的综合集成,以便在计算智能这个主题下发展思想更先进、功能更强大、能够解决更复杂问题的大系统的智能科学成果。由此看来,当前计算智能发展的重要方向之一就是不断引进深入的数学理论和方法,以“计算”和“集成”作为学术指导思想,进行更高层次的综合集成研究。这种综合集成研究不仅不局限在模型及算法层次的综合集成的范畴,而且还进入了感知层次及认知层次的综合集成。

由于生物是自然智能的载体,因此生物学理所当然是人工智能研究灵感的重要来源。从信息处理的角度来看,生物个体本身就是一台优秀的信息处理机,而其所具有的完美解决问题的能力让目前最好的计算机也相形见绌。人们已经从许多角度开创不同的学科来研究生物体系。其中一个重要领域就是生物信息处理系统,许多研究人员已经在工程领域应用生物系统的信息处理功能。如人工神经网络、模糊逻辑及进化计算就是模拟生物个体的某些特征而发展起来的智能算法,由于这些算法具有高度并行性,并且具有自组织、自适应、自学习等智能特征,通过“拟物”与“仿生”使问题得到解决,它们为解决某些复杂问题提供了新的启示。

一些传统的观点认为,机器学习算法的任务是寻找准确的知识或规则,换句话说,按照评价函数而言是最优的。随着机器学习领域研究的不断深入,人们逐渐认识到,采用机器学习算法的重点已不再是寻找准确无误的知识,而是发现一些新颖的、可被人理解并有意义的新知识,通过人的参与来做出更高一级的决策,这才是知识发现的最终目的。而这些发现就整个大型数据库而言,可能只是一些次优的规则。有鉴于此,基于进化算法的机器学习方法很快受到人们的重视。进化算法是一种迭代式搜索算法,它可以在很短的时间内找到许多问题的次优解,但为求全局最优解则需要付出很大的代价。为此,人们提出了一些将该算法与已有启发式算法相互结合的混合进化算法来提高搜索过程的整体性能,就进化算法本身的构成而言,它在个体生成时的两个主要算子(交叉和变异)都是在一定发生概率的条件下,随机、没有指导地迭代搜索,因此它们在为群体中的个体提供了进化机会的同时,也无可避免地产生了退化的可能。在某些情况下,这种退化现象还相当明显。另外,很多有待处理的数据挖掘问题都会有自身一些基本的背景知识和显而易见的特征信息,然而进化算法的交叉和变异算子却相对固定,在求解问题时,可变的灵活程度较小。这无疑对算法的通用性是有益的,但却忽视了问题的特征信息对求解问题的辅助作用,特别是在求解一些规模较大的数据问题时,这种忽视所带来的损失往往就比较明显了。利用问题自身的背景知识和特征信息来进行求解,正是很多人提出混合进化算法的初衷。就目前而言,能够用于解决机器学习问题的方法很多,从它们所运用的技术特点来看,这些方法主要有三种类型:基于信息论的启发式学习方法、神经网络的学习方法和基于生物进化机理的进化学习方法,如遗传进化、遗传规划和DNA计算等。

20世纪40年代,计算机的产生使机器学习的实现有了可能,并且自50年代中期到60年代中期成了机器学习的高峰时期。从60年代中期到70年代中期转入低潮,主要研究侧重于基于概念的学习和基于归纳的学习;在70年代中期到80年代中期又得到了迅速发展,特别是专家系统的成功应用,不同的学习策略和各种学习方法问世,示例归约学习成为研究主流。自动知识获取成为机器学习的应用研究目标,遗传算法应用于机器学习的思想已经被提出。最近10多年机器学习的研究和发展进入了一个崭新时期。1986年,神经网络重新兴起,基于连接机制的学习开始向传统的符号学习挑战。神经网络将知识的表达蕴涵于网络连接中,处理隐层和反向传播算法的发展,显示出很强的学习能力,随着各种改进型算法不断被提出,显著地改善了机器学习系统的性能。

机器学习系统实际上是对人的学习机制的一种抽象和模拟,是一种理想的学习模型。基于符号学习的机器学习系统,如监督型系统、条件反射型学习系统、类比式学习系统、推理学习系统等,只具备一些较初级的学习能力。在物理、工程、技术应用、经济等实际应用领域中,常常存在一些复杂的物理系统,这些复杂系统往往需要由多个变量和多个参数的数学模型来描述,具有非线性、耦合性。同时,一些系统的参数或者结构并不是恒定不变的,而是具有一定的时变特性。基于传统知识处理方法的系统,在对认知领域有足够完备、清晰认识的基础上,可以很好地工作,但一旦所给信息缺损或模糊化,则其认知能力会急剧降低。这是因为传统的“硬”分析方法只能在给定的匹配模式下工作,对环境的适应能力较差,传统的“硬”知识处理方法不适合处理不确定知识。因此近年来,以自然计算为基础而发展起来的各种软计算方法为此提供了一种有效的解决方法。计算智能的本质与传统的“硬”分析方法不同,其目的在于适应现实世界遍布的不精确性。因此计算智能的指导原则是开拓对不精确性、不确定性和部分的容忍,以达到可处理性、鲁棒性、低成本求解及与现实更好的紧密联系。在最终的分析中,智能计算并不追求问题的精确解,而允许存在不精确性和不确定性,所得到的是精确或不精确问题的近似解,这是人脑求解问题的体现。计算智能的作用模型是人的思维,利用不精确性、不确定性和部分方法论的一个聚合体,它们结合起来的效果比单独使用效果更好。用此方法得到的结果具有易处理性、鲁棒性及与现实相一致性,且这些结果常常好于只用传统的计算方法得到的结果。高精度对于实际应用有时是没有意义的,大部分情况下可以牺牲精度来换取速度,提高效率。计算智能不是单一方法,而是具有合作关系的多种方法的集成。这些方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集理论等,它们是相互补充的而不是相互竞争的。

机器学习中的知识发现是从数据库中挖掘出隐含的知识,使这些知识变得可用。而在现实的数据库中,一方面大量积累的数据存在内在的不精确性,另一方面多属性数据又有其内在的复杂性。智能计算方法为处理数据挖掘中的不精确性和不确定性提供了有效的技术。从学科发展的角度来看,仿生计算智能的研究是各类自然科学(特别是生命科学)和计算机科学相交叉而产生的研究领域,它的发展完全顺应当前多交叉学科不断产生和发展的潮流。目前其在经典智能算法的理论及应用的基础上,已逐步发展出许多较有潜力的研究分支:DNA计算、蚁群系统、遗传算法、人工免疫系统、神经网络计算、模糊计算等;开发了较多的新智能工具,如免疫算法、蚁群算法、变邻域搜索、进化算法、混合优化算法等。本书所介绍的以免疫计算智能为基础的机器学习方法,便是针对具体问题而采用的多种技术和方法的集成。