深度强化学习:算法原理与金融实践入门
上QQ阅读APP看书,第一时间看更新

1.3 复杂环境特征

复杂环境中智能体决策基于复杂环境特征,可以理解为智能体所处的复杂系统状态特征。面对不同环境特征,我们需要构建不同类型的智能体进行策略学习。拉塞尔(Stuart J.Russell)和诺维格(Peter Norvig)的经典人工智能教材《人工智能——一种现代方法》对智能体任务环境进行了非常深刻的分析[89]。任务环境特征直接影响深度强化学习中智能体策略学习和算法分类,也是设计不同环境模型前必须确定的关键建模因素。

基于拉塞尔和诺维格对环境性质的分类,可以更好地理解和分析复杂环境特征,从而设计和训练对应的智能体模型。通过了解深度强化学习方法的分类情况,我们可以发现算法的特征和性质与复杂环境的特征和性质相互关联,可以在一个统一的框架下分析算法、分析问题、建模环境和智能体。我们将从不同角度刻画和分析复杂环境特征。

1.3.1 完全可观察的和部分可观察的环境

在智能体与环境的交互过程中,如果智能体能够感知到与智能体决策相关的全部环境状态信息,则认为复杂环境是完全可观察的;如果智能体无法完全感知与决策相关的环境状态,则环境是部分可观察的。复杂环境状态不能完全被观察的原因有很多,比如噪声干扰、感知器灵敏度差、数据丢失等情况,都使得智能体无法完全获得决策所需信息。

在部分可观察情况下,为了使智能体进行智能决策,可在智能体内部构建一个隐空间,将部分可观察的环境状态变量映射到隐空间,智能体基于隐空间的隐变量进行决策,如部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。

举几个例子。在围棋对弈中,对弈者基于棋盘落子信息进行决策,并完全由棋盘信息决定策略行为。对于对弈双方而言,棋盘落子信息是完全可观察的。自动驾驶中,自动驾驶系统如果遇到大雾天气,路面情况会出现遮挡,不是完全可观察的。当智能体无地图时,智能体仅能感知所处位置周边小范围内的道路交通情况;当智能体拥有详细的地图信息时,智能体对所处环境是完全可观察的。在完全可观察环境中,智能体能够进行高效规划和学习;而在部分可观察环境中,智能体需要基于部分可观察信息进行假设和推理,如大雾天气中行车的驾驶员需要基于经验对部分可观察的路面进行判断,再进行决策。

1.3.2 单智能体和多智能体

复杂环境中智能体与环境交互,且环境中只有一个智能体,那么这种环境是单智能体任务环境;如果有多个智能体与环境交互,且智能体之间也互相作用、互相通信,那么这种环境是多智能体任务环境。毫无疑问,多智能体环境较单智能体环境更加复杂,因为多智能体环境中智能体不仅要与环境交互以获得环境信息,还需要考虑其他智能体的信息来进行决策。多智能体深度强化学习是一个非常有潜力和活力的研究方向。

智能体玩单机游戏时,复杂环境中只有一个智能体与环境进行交互,属于单智能体任务环境。围棋程序AlphaGo在训练过程中基于棋局进行落子决策,环境就是围棋棋盘落子情况,包括了对手方落子信息,属于多智能体任务环境。很多策略类游戏是需要多人合作完成的,在构建此类游戏智能体时需要同时构建多个智能体进行决策,训练智能体之间的合作、竞争和交互行为以及与环境交互,如OpenAI Five和DeepMind的AlphaStar都是多智能体强化学习的经典应用。

从单智能体到多智能体的延伸和拓展,也是一个非常有前景的方向。在很多实际应用场景中,多智能体决策更能贴合实际,如智能投顾和智能客服中的智能投资机器人。金融市场是一个多人博弈环境,个体行为和收益不仅与自身策略行为相关,也与其他参与者的策略行为相关,如果智能投资机器人能够考虑其他智能体的行为和策略信息,将可能更好地做出投资决策。

1.3.3 确定的和随机的环境

如果复杂环境的下一个状态完全由当前状态和智能体动作决定,那么环境是确定的;否则,环境是随机的。围棋游戏中的棋局是确定的环境,完全由当前棋局和下棋动作决定,不存在随机因素。军棋游戏中,暗棋和翻棋的棋局是不确定的,不确定性来源于部分可观察性。下暗棋时,棋子立起来不让对方看见,棋子的大小信息需要裁判给出,对弈者需要根据部分可观察的信息进行推理和判断,做出决策行为。

在金融市场中,投资者对市场状态信息的感知极其有限,能够获得的金融市场信息非常少,特别是散户投资者,只能获得部分公开信息,同时,投资者受限于信息处理能力等因素,获得有效决策信息较难。金融市场信息具有多源、异构、高频等特性,同时随机性因素较多,投资者通常需要在不确定的环境中做出投资决策。对于此类投资者而言,金融市场环境就是一个随机环境,而且市场随机性随着时间也会演化,增加了投资者做出正确决策的难度,也为智能投资机器人的建模和训练提出了极大挑战。

在自动驾驶场景中,自动驾驶汽车的感知系统所能收集到的信息是有限的,如摄像头观察距离是有限的,清晰度是有限的,路面的能见度也是有限的,这些不可观察的信息使得环境具有了不确定性,因此自动驾驶智能体面对的环境具有随机性。除此之外,一些突发的状况使得自动驾驶汽车所面对的随机性更大,如前方路面的车祸、车辆爆胎等。自动驾驶是当前人工智能领域最活跃的研究方向之一,也是资本投入最大的领域之一。

1.3.4 片段式和延续式环境

在片段式环境中,智能体的交互过程被分成了一个一个独立的片段,相邻片段之间的决策行为互不影响。例如,现实中随处可见的车牌识别(Vehicle License Plate Recognition,VLPR)系统对相邻两辆车的识别行为互不影响。

在延续式环境中,智能体行为之间具有关联性。棋类游戏中前后落子具有关联性,胜负是由一盘棋所有的决策行为(多步的落子)共同决定的。在金融市场中,智能体最后的收益也是由投资期内所有行为所共同决定,智能体当前买入行为的价值也受到后续投资决策行为的影响。强化学习算法就是专门针对此类序贯决策问题而设计的学习框架,现实世界中的很多复杂问题是可以建模成序贯决策问题的。

在实际应用过程中,我们可以将片段式决策过程和延续式决策过程进行转换。在金融投资过程中,投资者投资过程可以看成延续式,前后投资行为互相关联,而在实际程序设计过程中,智能体在片段式环境中训练和学习投资策略函数更加容易,因此我们可以对智能体投资行为进行设定或限制,比如一定时期内只能有一次行为动作,最后强制平仓,计算投资收益,再重新开始新一轮投资周期。

在智能算法运用过程中,我们也要避免“手里拿着锤子,看什么都像钉子”的心理,需要从实际问题出发,找合适的解决方法,并非所有的问题都可以应用深度强化学习来解决。奥卡姆剃刀原理告诉我们“如无必要,勿增实体”,即“简单有效原理”,尤其在工程应用或实际场景中,简单模型能够解决的问题,无须使用复杂模型求解。

1.3.5 静态和动态环境

智能体在进行决策的过程中,如果环境发生了变化,那么环境是动态的;否则,环境就是静态的。相对而言静态环境比较简单,智能体不需要时刻关注环境变化。在围棋游戏中,棋盘局面在智能体的决策过程中不会发生变化,当然此时不考虑决策时间限制。在现实世界中,绝大部分智能体的决策环境都是动态演化的。

金融市场是一个极其复杂的动态环境,在投资者决策过程中,市场信息瞬息万变。投资者决策需要时间,决策信息的采集完成时间点和决策行为的执行时间点存在一定间隔,当策略执行时,智能体先前考虑的市场变量已经发生了改变,这会影响智能体决策行为的准确性,要做到精准决策就会更加困难。投资者选择执行限价订单,在交易系统输入股票价格数字的几秒钟之内股票价格也可能发生变化,导致限价订单不能完成交易。在金融市场中广泛使用的自动化交易等高科技交易算法,也不能保证信息能被完全并及时地获取、处理和决策。在复杂金融市场环境中训练有效的自动投资智能体具有极大的挑战。

在自动驾驶系统的决策过程中,车辆自身在运动,周边的车辆也在运动,路面情况和物理环境都发生了变化。自动驾驶场景的环境时刻发生着变化,因此构建安全可靠的自动驾驶智能系统极具挑战,需要投入大量的时间和资源进行研究和开发,也是未来人工智能系统落地应用的突破之一。

1.3.6 离散和连续环境

环境状态信息和智能体决策信息都需要用变量来表示,而变量可以分为离散型变量和连续型变量。离散型变量可以表示类别、等级等,连续型变量能够表示时间、温度、体积、位置坐标等。特定环境状态信息需要选用合适的变量来表征,环境状态变量是智能体与环境进行有效交互的基础,也是智能体决策的基础。

一般来说,复杂环境变量融合了离散型变量和连续型变量。在围棋游戏中,棋盘位置可以用离散型整数表示,其他的价值变量可以用连续型实数表示。在自动驾驶智能系统中,红绿灯信息可以用分类离散型变量表示,车辆速度和位置坐标可以用连续型变量表示。在金融市场中,订单类型、股票类别可以用离散型变量表示,价格、交易量和换手率等可以用连续型变量表示。

1.3.7 已知和未知环境

已知的环境和未知的环境分类主要基于智能体对环境模型的了解程度。如果环境中不同状态之间的转移函数或动力学演化规律都是可获得的,那么对于智能体而言,环境模型是已知的。在围棋游戏中,智能体在清楚地预测下棋行为(落子)之后,环境的下一个状态信息就确定了。在物理系统中,物理环境模型蕴含了基本的物理规则,环境模型系统的演化严格按照物理规则进行,因此,在智能体决策过程中物理规则是智能体已有知识的一部分,能够为智能体决策所用。

强化学习算法可以分成基于模型(Model-based)的算法和无模型(Model-free)的算法,其智能体交互的环境模型分别对应已知环境和未知环境。基于模型的强化学习算法能够充分利用模型的动力学规律,智能体与环境交互更为高效,能以较小的代价获得更多高质量的经验数据或者模拟数据样本,因此,基于模型的强化学习算法能够充分利用复杂环境模型进行规划和学习,加速学习过程,提高学习效率,节约计算资源。

在无模型的强化学习方法中,智能体通过与环境的交互获得经验数据样本,感知环境的动力学过程,通过经验数据训练智能体。一般来说,智能体和环境的交互过程需要耗费很多计算资源和存储资源。在机器人训练中,机器人与真实环境交互非常缓慢,如训练机器人的行走,受限于真实环境和机械设备,机器人的动作和移动速度有限,影响了机器人训练效率。虚拟的物理环境模拟系统(环境模型)能够加快智能体训练过程,虚拟的物理环境和现实环境差异较小,智能体能够高效地获得较好的模拟数据完成训练。要使智能体能够高效获取环境信息,条件是要能够模型化复杂系统环境。如果模型化的虚拟环境与现实环境差异较小,那么智能体在虚拟环境中的智能策略就能够较好地泛化和迁移到真实环境。