3.2 生物集群到人工集群映射机理
生物群智涌现机理让我们了解了生物群体智能的共识性、协同性与涌现性,明确了其背后的复杂生成与演化过程。在此基础上,本节将进一步探讨如何将所发现的生物集群协同机理迁移和映射到人工集群系统中。具体来说,这里共总结和归纳出七种将生物集群协同机理映射到人工集群系统的典型模式,如图3.14所示。不同的映射模式作用于人工集群协作的不同方面,如表3.9所示。
图3.14 生物群智到人工群智的映射机理
表3.9 生物-人工群智的典型映射模式
群集动力学常用于协同编队和自主聚集等群集运动场景,源自生物协作的启发式规则适用于约束和促进多智能体间的协作行为,自适应机制便于增强群智能体的环境自适应性和自修复能力,受生物启发的群智优化算法适用于智能体路径规划、任务调度等最优问题求解,图结构映射模型刻画个体间的交互通信结构,演化博弈动力学解决群体内的协商与决策问题,群智能体学习机制映射旨在构建类人的通用人工智能,赋予人工集群系统举一反三、持续演化的学习能力。
3.2.1 群集动力学
无论是鸟群还是鱼群,生物群体内部协同合作的首要条件就是个体之间实现同步运动,即在速度、方向等运动特征上实现一致。尽管生物群体中的个体感知能力和智力水平有限,但整个群体却能呈现复杂而同步的运动行为,例如朝同一个目标行进(食物、栖息地等)、形成特殊的空间结构以应对紧急情况等。这种从无序、杂乱的初始行为状态到有序、一致的行为模式形成是生物群智涌现的一种重要体现。群集动力学是研究生物运动行为群智涌现的基础理论,也是实现从生物群智到人工群智映射的重要模式(如图3.15所示)。
图3.15 群集动力学映射模式图
具体来说,群集动力学首先为集群中的个体建立动力学方程,以此来表示个体的运动状态,比如速度或方向。然后该方程依据某些预定的公式不断迭代,这些公式就代表所发掘的个体间的交互规则,迭代所达到的相对稳定状态就是群智行为的体现。我们以最经典的Vicsek模型[10]和Couzin模型[16]说明这一映射过程。在前文提到的Boid模型的基础上,Vicsek模型从统计力学的角度对其进行了简化,研究了集群中个体运动方向达成一致的条件。个体运动以自身位置x为中心,检查半径R范围内所有邻居的运动角速度的平均矢量,再加上所添加的噪声影响来更新运动方向。不同于Vicsek模型从统计力学角度对Boid模型的拓展,Couzin等人又从数学模型的角度对Boid模型进行了更精确的描述,提出了Couzin模型。Couzin模型将个体的感知区域由内而外分为三个不重叠的区域,即排斥区、取向区和吸引区,分别对应Boid模型中的分离、对齐和凝聚规则。其他粒子进入排斥区将会倒退;在取向区受到在这一区域内其他个体的影响时会调整其方向;吸引区内距离较远的粒子会相互靠近。综上所述,群集动力学既可以解释群集智能的产生,又能为人工集群控制等研究提供新思路。Vicsek模型和Couzin模型还有很多改进版本,相关内容可参考第4章。
3.2.2 启发式规则
群体运动通常是个体行为集聚的结果,每个个体的行为基于对环境的局部感知。与群集动力学直接研究个体运动动力学特征不同,启发式规则考虑个体根据局部感知,遵循相对简单的规则形成集群现象,即利用所发现的生物群体行为规律,为执行复杂任务的单个机器人行动建立行为机制。启发式规则的映射思想如图3.16所示,根据这些规则在人工集群协作上的作用点不同,可分为:直接作用于机器人行动上的行为规则、调整机器人群体结构的结构变换规则和规定机器人交互通信的通信规则。下面将分别阐述这三种规则。
图3.16 启发式规则映射模式图
1. 行为规则
行为规则的灵感来自生物集群中无中心控制即可协调行动的现象,人工群智系统也可以通过自组织的协同控制来完成复杂任务。通过将多个控制器的输出组合起来,实现包括避免碰撞、避免障碍物、寻找目标和保持队形等行为[81-83]。行为规则定义了个体与个体之间以及个体与环境之间的行为交互规则,而不需要任何形式的集中控制。
Sean等人[84]模拟蚂蚁执行集体运输任务的微观和宏观行为,设计了分布式机器人行为控制策略,通过控制个体与货物的附着、分离以及运动方向,模拟实现了多智能体集体运输任务。借鉴鸟类群集现象,Balch等人[85]提出了基于行为规则的机器人编队方法,在仿真和真实机器人上都得到了性能验证。前文介绍的Boid模型所引入的凝聚、分离和对齐三个启发式行为规则,也为人工群智系统的构建提供了重要基础。
人工群智系统对行为的控制一般通过人工势场实现[11]。它将机器人抽象为物理实体,个体之间存在排斥、吸引与对齐等相互作用力,通过调节作用力的作用范围等参数,实现集群运动的宏观现象。例如,Spears等人[86]给出了虚拟物理力(Virtual Physical Force, VPF)设计框架,该框架在无人车集群控制中表现出了良好的性能[11]。
2. 结构变换规则
结构变换和调整的现象可在大雁、狼群等生物种群的社会组织中观察到。大雁在长途飞行时,为了充分利用气流,在上升或降落阶段主要结成“一”字形队列飞行;在飞行中段会变成“人”字形队列飞行。椋鸟在组队飞行时,队形飘忽不定,它们在空中会形成各种巨大怪异的图案,以恐吓掠食者。
人工集群也可以像自然生物群体那样表现出高程度的形态适应能力。在真实环境中,多智能体可能难以保持某种队形以达到预定目标,因此也可变换队形以增加结构的多样性、灵活适应环境。以Li等人[5]研发的模拟生物细胞集体迁移的粒子机器人为例,粒子集群在没有外部光源刺激的情况下,只能随机移动;当有外部光源刺激时,集群可朝向光源方向移动。如图3.17所示,粒子颜色从绿色(最小半径)到蓝色(最大半径)不等,而部分故障粒子用灰色表示。黑色区域为障碍物,黄色区域表示刺激物(光源)。当在集群和光源之间设置一个有缝隙的障碍物时,由于粒子机器人是通过小磁铁松散地黏在一起的,集群就可以调整黏合关系,改变形状挤过这个缝隙,继续向光源方向运动。
图3.17 由许多松耦合的粒子组成的粒子机器人变形,挤过障碍物间的缝隙向光源方向运动[5](见彩插)
Mathews等人[87]研究了可根据需要自行组织和构建具有不同能力、形状和尺寸的可合并神经系统(Mergeable Nervous System, MNS)。如图3.18所示,该系统既可以通过集中控制器将多个机器人合并成更大的整体,也可以通过独立控制器分裂成独立个体。如果传感器感应到外部LED灯光刺激的话,被识别作“大脑单元”的机器人会向其他机器人单元发出合并或者拆分的执行指令,然后机器人将进行坐标转换来协调空间。该系统还可以通过移除或替换故障的部位进行自我修复。在检测到“大脑单元”故障时,其他机器人单元会先进行拆分,移除故障单元并识别出新的“大脑单元”再重新形成指定形状。Zhu等人[88]提出了一种自组织的编队控制方法,该方法结合了集中控制和分散控制,群体机器人通过自组织通信拓扑结构执行分布式非对称控制。实验证明,机器人发生故障和位移后,可以恢复编队,也可以在飞行中切换到新的编队。
图3.18 群体机器人的合并与分裂:第1步,由单个机器人单元(中间)自我组装成一个更大的螺旋形机器人;第2步,机器人分裂成为一个个机器人个体。这个过程重复三次(步骤3~8),分别合并成三个不同形状的更大的机器人[87]
3. 通信规则
不论是鸽群或鸥群飞行过程的层级交互,还是椋鸟或鱼群的相邻个体局部交互以及蚁群的信息素机制,都可从中总结出适用于人工集群相互联系的通信规则。这些通信规则或以层级机制与邻居局部交互,或通过信息素等介质传递消息,还可通过收集全员信息获取全局共识等。
在Ren和Olfati等[57-59]提出的多智能体系统中,智能体以两种规则选择邻居进行通信,利用其间的信息交换来实现团体移动的速度或方向上的共识。智能体之间离散时间的共识协议一般可以表示为
其中,xi表示智能体的信息,N表示邻居的个数,αij表示智能体i对智能体j的信息的相对置信度,gij表示智能体之间的通信网络连接,如果为连接状态,则gij为1,否则gij为0。采取的两种通信策略分别为优先选择连接数少的智能体通信和随机选择智能体通信。图3.19展示了具有不同初始条件的6个智能体之间通过这两种策略选择拓扑邻居进行信息交互最终达成共识的示例。
图3.19 6个智能体使用不同的通信策略时的信息交换和共识过程:左侧为基于最小连接个数的通信;右侧为基于随机选择一个智能体的通信[59](见彩插)
全局交互得到的信息更全面,对应地对机器人的通信能力和通信范围要求更高,甚至可能限制机器人的活动范围;局部交互获得的信息相对全局交互较少,不会直接获取全局相关信息,但是对个体通信能力要求更低,实际应用中可通过通信能力限制、感知范围的要求以及具体任务需求选择恰当的通信方式。
3.2.3 自适应机制
在现实环境中,如何应对意外事件的发生是人工群智系统面临的一大挑战,例如障碍物的存在以及随时变化的周边环境都可能干扰任务的执行。自适应机制指群体完全自发地对多变的环境做出动态行为调整,或者对群体结构进行组织变换,以此增强集群对环境的适应性。可以在很多社会群居动物群体内观察到这种适应性,例如大雁、狼群、鱼群或椋鸟群等。图3.20展示了自适应机制如何将生物群智涌现行为的相关机理映射到人工集群上,下面将从群体结构角色变换和行为应急避险两个方面对自适应机制进行阐述。
图3.20 自适应机制映射模式图
1. 角色变换机制
在雁群的编队迁徙过程中,因为头雁在飞行时无法利用同伴搅起的上升气流,所以头雁飞得很累,会比其他同伴更早遇到体力不济的局面,因此雁群在迁徙过程中需要不时更换头雁[89]。狼群在追逐猎物时,若领跑的头狼体能消耗殆尽,排在第二位的狼就会绕到头狼的前面,继续带领狼群展开追击,以持续消耗猎物的体能。在群智能体系统中,为更好地实现资源的有效利用,也可根据情境进行角色分工调整。Levent等[90]提出了在觅食等搜索任务场景中的角色变换机制,系统会根据资源、环境动态变化确定机器人何时进行搜索行动以及何时休息,以自适应调整自身角色。Parker等[91]也采用了类似的角色变换机制,并引入了不耐烦值和默许值两个参数,分别与机器人的休息时间和工作时间相关。这两个值决定了机器人何时停止休息或中止搜索,使多数机器人不会同时执行同一任务以降低搜索成本。
巢穴食物或能量的存储状态变化也可作为角色切换动机[92]。如果没有机器人将新的食物带到巢中,食物数量或能量会随时间的推移而减少,达到阈值则会激活休息中机器人的觅食活动;阈值可以是固定的,也可以根据集群能量状态而自适应地变化,最终实现任务的自组织优化分配[93]。由于搜索区域的交通拥挤程度和机器人之间的物理干扰也会显著降低群体的性能,因此还可以用交通流密度和避障量共同调整阈值来指导机器人工作状态的转换,提高协作效率,减少物理干扰[94]。Liu等[95]提出了一种面向集群能量最大化的分布式任务分配策略,同时考虑自身能量获取状态、局部感知的环境信号(搜索时与周围个体的冲突和避障行为)和社会信号(同伴能量获取状态)以自动调整机器人角色变换的时间分布。
2. 应急避险机制
应急避险机制对应于3.1.3节中提到的鱼群、鸟群等大规模群体行进时,遇到袭击会以极快的反应改变行进速度和行进方向的现象。借鉴至人工群智系统,遇到攻击或障碍物时,人工群智系统也可通过自发性、自组织的应激反应化险为夷。应急避险不同于结构变换,两种映射的驱动力不同。前者是在威胁到来之际的快速反应调整,而后者则是更好地利用环境,或是为提前应对未知的威胁而灵活地调整结构,不仅限于避险。对于应急避险来说,不只有变换结构一种做法,还有改变速度等对紧急情况做出的调整。
将这种应急避险机制拓展到无人机集群[64],当无人机距离地面太近时,需要快速拉起机头并爬升,防止撞击地面。此外,前文中提到的面向未来作战的马赛克战构想也充分体现了自适应机制的重要作用。该构想试图寻找一系列类似于“马赛克”的、灵活可组的标准化功能单元,将观察、判断、决策、行动等阶段分解为不同的力量结构要素,以情境自适应的要素自我聚合和快速分解形成能够应对更加多样、复杂场景的强大作战体系。
3.2.4 群智优化算法
群智优化算法是受动物的社会行为机制启发而设计出的算法或分布式解决问题的策略。顾名思义,它主要用于解决优化问题,即在满足一定条件的情况下,在策略和参数空间中寻找最优解,使某个或多个功能指标达到最优或使系统的某些性能指标达到最优。群智优化算法主要模拟了鸟群、鱼群、昆虫或兽群等生物群体为了个体利益以及集体利益,在觅食、捕猎等过程中进化出的典型群智行为。将抽象总结出的算法应用于人工群智系统的路径规划、资源划分或任务分配等方面,也可相应地提高个体或群体效能,如图3.21所示。目前已经有非常多的群智优化算法,例如蚁群算法(Ant Colony Optimization, ACO)[96]、粒子群算法(Particle Swarm Optimization, PSO)[97]、人工鱼群算法(Artificial Fish Swarm Algorithm, AFSA)[98]、萤火虫优化算法(Glowworm Swarm Optimization, GSO)[99]和狼群算法(Wolf Pack Algorithm, WPA)[40]等,下面以最常用的群智优化算法——蚁群算法来说明这种映射过程。
图3.21 群智优化算法映射图
意大利学者Dorigo等人[53]于1991年首先提出蚁群系统的概念,他们发现单个蚂蚁的行为比较简单,但是整个蚁群却可以体现出高智能行为,例如蚁群可以在不同的环境下寻找到达食物源的最短路径。之后Dorigo又于1992年提出了蚁群算法,其启发思想如图3.22所示。
图3.22 蚁群的路径探寻:从左到右依次为初始状态下的蚂蚁分布,路径上刚加入障碍物时的蚂蚁分布,信息素积累一段时间后找到较短路径的蚂蚁分布
如果两点之间多条路径有信息素,蚂蚁会以较大概率选择信息素较浓的路径前进,形成一个正反馈机制,选择较短路径的蚂蚁所用时间短、往复次数多,路径上信息素浓,从而吸引更多的蚂蚁选择较短的路径。这种利用信息素思想求解最优化问题的方法就称为蚁群算法。周等人[64]将这种方法应用到无人机的航迹规划上:首先将地景模型划分为网格,并将网格顶点对应的地景中的高度作为该顶点的高度,从而得到一个地形网格,然后在21×21×2000的地形网格上验证蚁群算法在路径规划上的有效性。近年来,蚁群算法及其改进模型已经被广泛用于解决各种复杂优化问题。Dorigo等[100]提出了元启发式蚁群优化算法,为求解复杂问题提供了通用算法框架。Akka等[101]采用了新的信息素更新规则并动态调整蒸发速率,在移动机器人路径规划问题上获得了较好性能。Khaluf等[102]提出了一种新的蚁群优化算法,用于有效地将多个机器人分配给一组需要在特定期限内完成的任务。该算法使用信息素跟踪进行评估,以支持最小化任务执行时间的分配。
3.2.5 图结构映射模型
生物群体在交互或协作过程中体现了丰富的个体间关系。根据群体内成员间的通信关系或者社会等级结构关系,可以构建出拓扑结构图并分析其社会互动作用。图结构映射模型如图3.23所示,这种形式使设计和控制人工群智系统的问题变得更容易,生物群体所体现的多元互动在人工群智系统中也能发挥重要作用。
图3.23 图结构映射模型图
鸽群个体间的相互作用机制和通信网络可以通过层级拓扑图进行刻画。Nagy等人[60]在2010年首次揭示了鸽群的层级领导网络(如图3.24所示),每只鸽子或为领航者,或为跟随者,或在中间层扮演领航者与跟随者的双重角色。Yomosa等人[103]利用便携式立体摄影系统分析了蒙面鸥群的时空结构,研究了个体之间的领航者-跟随者关系。这些对通信交互结构的研究有利于揭示生物群体交互机制,并且为人工群智能体间的通信提供支撑。Zafeiris等[104]证明了这种层级交互结构的信息传递速度比平等交互结构效率更高。Flack等人[105]将这种社会层级网络结构引入集体运动模型来研究社会关系对群体导航的影响,并表明具有特定社会结构的群体可以更好地补偿不断增加的导航错误水平。
图3.24 鸽群层级领导网络结构示意图,箭头从领航者指向跟随者,其上的数字表示两只鸟动作上的时间延迟[60]
图模型不仅可以表示个体间的通信关系,还可以刻画群体内的社会等级制度关系。以3.1.6节讲到的狼群等级制度为例,灰狼优化算法(GWO)中[106]对灰狼的社会等级进行了数学建模,将狼按照地位从高到低分为α、β、δ和ω四级,并用金字塔图的形式表现出每一等级的优势,等级越靠下在种群中拥有的优势就越少,进而在不同等级个体间建立相应的交互机制以优化群体协作效率。前面所介绍的动物群体中等级或层级制度表明,在人工群智系统中引入某种形式的分层控制是合理的[107]。例如在机器人领域,Zhang等人[108]将GWO应用于无人机路径规划问题,解决了三种不同维度下的路径规划问题。算法目标是找到一条安全的道路,同时避开危险区域,并将燃料成本降至最低。实验结果表明,与其他元启发式算法相比,该算法具有较高的效率。
3.2.6 演化博弈动力学
演化博弈概念源自达尔文的进化论,其中,演化是一个渐进的发展过程。从生物的群体层次上看,在种群繁衍过程中,如果个体的某种行为适应度高,就会在种群中得到扩散而被保留,目的是比其他种群变得更好,以便在优胜劣汰的自然界中生存繁衍。演化博弈动力学[109, 110]所关注的是群体中的参与者如何通过动态学习过程达到稳定的均衡状态,动态过程就对应于有利行为的扩散,稳定均衡就是种群演化的优胜状态。演化博弈动力学中的一类映射过程如图3.25所示。
图3.25 演化博弈动力学映射模式图
演化博弈主要解决两个问题:一是构建动态学习模型;二是分析和判断动态模型是否收敛到均衡状态。这两个问题涉及演化稳定策略(Evolutionary Stable Strategy, ESS)[111]和复制动力学(Replicator Dynamics)[112]这一对演化博弈理论中最重要的基本概念。演化稳定策略是指群体中大部分个体所采取的策略,其假设群体的“趋同性”使得演化过程中的个体要么做出演化稳定策略,要么在过程中被淘汰。这种情况下,演化稳定策略即为决策集合中收益最高的策略,使得群体能够抵挡少数突变策略个体的影响,在演化过程中达到均衡状态。演化博弈理论的复制动力学由生态学家Taylor和Jonker在考察生态演化现象时提出[112],代表策略演化的动态收敛过程。总体来说,演化博弈动力学主要关注以上两个问题,而具体的演化博弈理论则涉及以下四项基本要素:
1)群体:每个群体都有自己的行动集合。
2)支付函数:行动对应的收益。
3)动态:参与者的学习或模仿过程。
4)均衡:演化的收敛稳定状态。
基于以上四项基本要素,演化博弈的基本分析过程可以被看成是参与者群体选取了不同策略,进而分出了不同的动态演化过程,再根据动态演化方程的分布分析演化的稳定性。
演化博弈是研究群体内合作演化和策略竞争的一种行之有效的方法。DeepMind于2019年在《自然》杂志中提出了一种多智能体强化学习方法来解决《星际争霸》这一复杂环境中的AI挑战[50]。针对单智能体学习能力有限问题,该方法采用社会性动物分工合作模式,提出“联盟智能体”的概念,通过不断地让联盟内部的个体之间相互对抗博弈来进行强化学习训练,使每个个体都能得到提升。其中,智能体选择博弈玩家的规则如下:
B代表智能体A要选择的对手,C代表候选者集合,f是一个权重函数,若选择fhard(x)=(1-x)p(p∈R+),智能体A会匹配到获胜率较高的玩家,从而更能找到自身弱点来强化自己,省去与绝对能战胜的玩家对战的学习过程;如果选择fvar(x)=x(1-x),智能体就会优先选择与自己同等级别的玩家对抗。同时,该方法通过借鉴生物集群演化机制提出了群智能体演化博弈策略:一方面,主智能体自我博弈以对抗历史玩家;另一方面,主/联盟探索者按一定概率重置/复制策略参数。通过博弈逐步将获胜的策略保留下来,进一步提升智能体的对战能力。有关算法细节,可参考3.3.3节的相关内容。
3.2.7 群智能体学习机制
基于学习机制的映射,旨在借鉴生物的强泛化性、自适应性、协作性等学习特性提升机器智能。从生物举一反三的学习能力映射出的迁移学习机制(详细内容可参考第10章),可以提升AI模型的泛化能力;借鉴生物与环境的试错式交互得到强化学习(参见第7章),可以帮助模型应对动态变化环境;在不遗忘旧知识的同时持续学习新知识(参见第7章),联系已有知识运用于新的学习任务;从生物的模仿能力映射得来的模仿学习机制(参见第9章),借助专家提供的先验知识高效寻找解决方案。对生物学习能力和认知机理映射将使现有弱人工智能向更接近人类的强人工智能(通用人工智能)演进。图3.26给出了群智能体学习机制的整体映射思想。
图3.26 群智能体学习机制映射模式图
1. 迁移学习
面对新的环境、新的目标,生物善于发现不同任务之间的区别与联系,举一反三,利用已积累的知识创造性地解决新问题。例如,人学会弹电子琴之后会更容易学会弹钢琴。在机器学习领域,迁移学习(Transfer Learning)[113]借鉴了人类的学习能力和知识迁移能力,通过存储已有任务的知识(数据、参数、特征、模型等),将其利用在其他不同但相关的问题上。迁移既可以是相关任务之间的知识迁移,也可以是不同智能体之间的知识或经验迁移。由于神经网络的训练所需数据集大小不是在所有情况下都能满足的,因此通过迁移使用已经训练好的神经网络也越来越重要。
具备迁移学习能力的人工智能在面对新任务时比全新开发的神经网络表现得更好、训练得更快,但所涉及的负迁移(一种学习对另一种学习产生阻碍)和可迁移性度量[114]是传统迁移学习的重要问题,什么时候停止预训练、面对新的数据或算法如何更新预训练模型等问题都会影响迁移效果,还需要更进一步的研究(详见第10章)。
2. 强化学习
强化学习(Reinforcement Learning)[115]的灵感来源于心理学中的行为主义理论。为了达到某种目的会采取一定行为的思想来源于生物,特别是人,当某种行为的后果对人类有利时,人类会不断采取该行为;反之,这种行为就会减弱或消失。受此启发,强化学习要求智能体像生物一样在环境给予的奖励或惩罚的刺激下逐步形成对刺激的期望,产生能获得最大利益的习惯性行为。一般强化学习指的是单智能体的学习过程,而实际环境中往往存在多个智能体。多智能体强化学习实现单智能体自主学习向多智能体协同学习的拓展,它进一步借鉴生物界协作、竞争、博弈等机制实现群体能力的提升。强化学习的试错式探索能力可以说明,将生物思维映射到人工智能上的想法并非天方夜谭,但是待发掘的内容还有很多,实践上也仍存在诸多挑战。例如智能体的训练初始化过程和决策动态敏感性,使其很难适应多种环境[116],下一步的研究可以将强化学习引入神经科学、博弈论、控制理论等领域,以期在执行复杂任务时表现出更高级的智能决策能力(详见第7章、第9章和第10章)。
3. 持续学习
人类学习的一个关键特征是它对不断变化的任务和连续的经验是鲁棒的,这种鲁棒性与现代机器学习方法形成了鲜明的对比,后者只有在数据经过仔细地洗牌、平衡和均质后才能表现良好。机器学习模型在某些变化任务的情况下会完全失效,或者在早期学习的任务上遭遇快速的性能下降,即发生灾难性遗忘(Catastrophic Forgetting)[117]。学习机制映射之一的持续学习或终身学习(Continual/Life-long Learning)[118]就希望机器学习模型能和人一样基于先验知识来快速且准确地解决当前任务。近年来出现了许多受生物学启发的持续学习方法,包括任务增量、冻结权重微调、渐进式神经网络。许多人工智能研究还依赖于固定的数据集和固定的环境,持续学习的映射则表明人工系统可以像生物系统一样,从连续不断的相关数据流中有序地学习。当前,持续学习算法的模型大多是根据特定数据和任务类型而设计的,还没有一个能支持不同领域中所有可能任务类型的通用持续学习系统。未来的人工智能发展方向也会继续依赖持续学习,寻求能够与人类学习能力更完美地结合(相关内容请参见第7章)。
4. 模仿学习
在日常生活中,人们在得到教师或教练的指导后会记住相关行为并持续模仿,类比这一现象,模仿学习(Imitation Learning)[119]希望通过隐式地向学习器提供先验信息来学习和模仿人类行为。在模仿学习任务中,智能体寻求最佳的方法来使用专家演示的训练集(输入-输出对),以进行策略学习并实现尽可能类似于专家的行动。模仿学习训练提供了一个具有一定水平的预训练AI,缩小了训练过程中的探索空间,也便于在此基础上再进行强化学习或迁移学习等训练,以进一步提升智能水平。目前主流的模仿学习方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等。前三种算法映射是借鉴生物特殊的学习能力,模仿学习则直接让智能体学习人类行为,来使智能体做到人类才能完成的事。但模仿学习对数据量的要求较高,所学习的行为比较复杂时难以获取相关的行为数据。此外,还要提升人工智能的可靠性,更深入地学习事物的本质,而非机械地模仿行为(详见第9章的内容)。
3.2.8 群智涌现机理的典型应用
为了更深入地理解生物群体智能如何启发人工群智系统的设计,本节介绍哈佛大学的BlueSwarm这一典型研究[31]。BlueSwarm仅依靠基于隐式视觉调控的局部交互和简单的行为规则就可实现复杂的群体行为(如图3.27所示)。
图3.27 BlueSwarm展示:左图为机器鱼与真正的鱼在一起游动,右图展示了机器鱼的主要部件[31]
其中,单只机器鱼被命名为Bluebot,它们组成的集群系统被称为BlueSwarm。图3.27中右图展示了机器鱼的关键组件,主要包括三部分:2个摄像头,对周围环境进行三维感知;3个LED灯,作为主动信标,用于相互识别;4个独立的可控鳍片,提供水下空间游动。摄像头可以检测其他机器鱼LED灯所发出的光线,LED灯发出的蓝光用于显示机器鱼的位置;独立的鳍由电磁制动器驱动,尾鳍控制前进后退,背鳍控制下潜深度,两只胸鳍用于左右转弯。在实际使用过程中,基于机器视觉的算法每隔半秒钟就会检测视野范围内有多少只机器鱼同类,并计算出它们与自己的相对距离和角度关系(如图3.28所示)。
图3.28 把机器鱼群放置到水箱里,机载图像处理计算视野内自己与机器鱼的距离及相对方向[31]
研究者们首先运用这个机器鱼群实现了跨时间的自组织行为,其中参考萤火虫的集体闪光现象以及Mirollo-Strogatz模型[120]的同步机制,实现了尾部LED灯的同步闪烁。每条机器鱼都由一个计数器变量n来控制灯光,当观测到邻近同类的闪光后,就会让n提前m步,其中
m=f(n) (3-3)
函数f(n)只要是单调递增的下凹函数就可以实现同步,如。通过此机制就可以调整各自的闪烁周期以实现同步。在没有时间可参考的水下环境中,这种类型的同步机制对于抑制时间偏移很有作用。
该工作还可以根据虚拟力模型控制群体密度并通过调整势场强度控制鱼群覆盖的范围(聚集或分散)。每一个机器鱼都会受到邻居的人工势场影响,通过一定的吸引力与排斥力,在控制鱼群运动的同时避免碰撞。BlueSwarm还可以基于简单的行为规则实现顺时针和逆时针旋转以及等距的环绕运动。具体来说,机器鱼被设定为如果看不到任何其他邻居则稍微向右转,如果看到至少一只机器鱼,则稍微向左转;由此就形成了集群的动态圆运动行为。如图3.29所示,即使在旋转的圆上增加或移除机器鱼,BlueSwarm依然按照设定的行为规则行动,可以迅速调整重新形成圆圈并继续旋转。
图3.29 自组织的动态圆集群运动行为的形成以及在人为扰动下的队形恢复[31]
除集体行进行为外,研究人员还探索了群体聚集行为的涌现过程。将机器鱼群放置在未知的红光源附近,通过切换搜索、报警和聚集三种行为来定位并聚集到光源位置,如图3.30所示。当机器鱼探测到红色光源,就会闪烁LED发出警报以吸引其他机器鱼。如果其他机器鱼感知警报信号,就向发出警报的同伴靠近。当它也探测到红色光源时,也开启闪烁以加强警报信号,最后集群都会聚集在红色光源处。
图3.30 群体聚集行为涌现:机器人在搜索、聚集和报警三种行为之间切换,在图中分别用蓝色、绿色和黄色表示[31](见彩插)