前言
制造业是国民经济的主导力量,也是实施创新驱动战略的核心领域。智能制造是新科技革命的核心,是制造业变革和科技创新的制高点,也是制造业转型升级的主攻方向,要通过推动人工智能、大数据、互联网和制造业的深度融合来实现。车间生产是智能制造高质量发展的主战场,也是学术界和工业界历久弥新的研究课题。因此,本书选择典型的流水车间调度、作业车间调度、分布式调度等问题作为研究背景,以深度强化学习和其他相关技术为研究对象,开展复杂约束条件下的车间生产调度单目标或多目标问题研究。
近年来,人工智能发展迅速,其中深度学习、强化学习等技术尤其引人注目,并且在生产制造、供应链、医疗卫生、自动驾驶等领域得到了深入的研究和应用,取得了丰硕的成果。随着研究和应用的不断深入和相互促进,将深度学习和强化学习相结合的深度强化学习技术已成为当前机器学习领域的研究热点之一,在深度神经网络、马尔可夫决策过程、动态优化和策略梯度等理论和技术支撑下,具有很强的感知和决策能力,并在计算中实现两者的交替发展与提高,目前已成功应用于围棋、推荐、调度等复杂的组合优化问题中。
在车间生产调度问题场景下,通过深度强化学习和其他相关算法求解流水车间调度、作业车间调度和分布式调度等问题,取得了一些研究成果,具体如下:
(1)研究了两种基于监督学习的序列模型以解决作业车间调度问题。首先设计了以长短期记忆神经网络(Long Short-Term Memory,LSTM)为主框架,同时嵌入指针网络和条件随机场的模型,并利用析取图来描述作业车间调度问题和相应的可行解,通过实际问题提取样本,利用启发式调度规则构建样本标签。其次,在自注意力机制和多头自注意力机制的基础上,构建了由多个同结构的编码器和解码器组成的编码组件和解码组件,并根据实际需要加深模型层次,通过自注意力机制的并行能力实现快速训练,有效改进了循环神经网络训练效率较低的缺点,提高了模型的预测准确率。
(2)研究了基于值函数逼近的深度强化学习算法求解流水车间调度问题。分析了流水车间调度问题的状态、动作、奖励值以及值函数的表示方法,以工件的加工时间和加工机器的负载状况来构建算法的局部和全局状态特征,以特定状态下对应的调度规则来构建算法的行为动作,并训练神经网络来完成状态与动作的映射,同时将最大完工时间问题转化为对应的机器空闲时间最小问题来构建奖励值。实验结果证明了基于值函数逼近的强化学习方法解决生产调度问题的有效性。
(3)研究了基于策略梯度的深度强化学习算法求解作业车间调度问题。分析了基于策略梯度的深度强化学习方法求解作业车间调度问题的可行性。将工序排列空间中不同的序列差异作为奖励值,将生产调度问题的评价目标作为累积奖励值,并在长短期记忆网络中嵌入指针网络以提升算法性能。首先,通过注意力机制确定当前状态下工件的优先级概率分布,形成有效的调度序列。其次,为了获取更丰富的输入序列信息,通过指针网络从输入序列中选取优先级更高的信息,并在计算部分通过加权机制来提高解的质量。结果表明,基于策略梯度的深度强化学习算法具有解决作业车间调度问题的能力,且模型在解决此类问题时具有较好的可复制性。
(4)研究了基于混合Q-learning的多目标车间调度优化问题。在作业车间调度问题背景下,研究了考虑工件运输的生产调度完工时间、拖期时间、能源消耗等多目标优化问题,对带精英策略的非支配排序遗传算法(Non-dominated Sorting Genetic Algorithm-Ⅱ,NSGA-Ⅱ)的交叉和变异机制进行改进,加入基于N5邻域结构的局部搜索策略,通过改进的NSGA-Ⅱ算法进行多目标问题求解。在Pareto解的基础上,将前后工序的加工机器抽象为二维坐标点,并设计了强化学习遗传蚁群算法进行求解,得到了比Pareto解更优的能耗目标解,在运输设备派出数量、运输路径等方面具有更高的实际应用价值。这部分工作进一步拓宽了强化学习的应用场景,实验结果证明了算法求解多目标生产调度问题的有效性。
(5)研究了基于NASH-Q-learning的分布式车间调度问题。在分布式流水车间调度问题背景下,深入分析了多智能体强化学习方法,在NASH均衡和NASH-Q-learning理论框架下,将平均场理论和多智能体结合提出了多智能体车间调度算法。构建了联合状态、联合动作等全局视角的算法元素,通过深度神经网络进行值函数逼近。此外,还对常用于分布式调度问题的迭代贪婪算法进行了改进。最后对两种算法的求解结果进行对比。实验结果证明了所提出的多智能体车间调度方法求解分布式生产调度问题的有效性。
由以上研究结果可知,以深度强化学习算法为主的人工智能方法可以有效解决流水车间调度、作业车间调度、多目标生产调度和分布式生产调度等复杂的组合优化问题;但同时还存在理论支撑不够完备、算法分析不够深入、应用场景不够全面等问题,这将是下一步研究的重点。
王 阳
2019年6月2日于温江孔雀城