详情

原文传递基于强化学习的高速公路自动驾驶决策方法研究

论文题名：	基于强化学习的高速公路自动驾驶决策方法研究
关键词：	高速公路;自动驾驶;强化学习;车道跟随;自动超车
摘要：	近年来，各种基于人工智能的应用在越来越多的领域中逐步取得比原有方法更好的效果。其中，自动驾驶逐渐成为人工智能领域最重要的落地场景之一。在车辆上采用自动驾驶技术可以避免驾驶员操作失误带来的安全隐患，并且在舒适性、智能性方面能有大幅的提高。当前自动驾驶决策方法主要采用基于规则的方法，这一方法通过预设的“专家知识”来建立智能车行驶过程中的行为规则。但对于高速公路自动驾驶这种状态空间较大、动作空间为连续型、速度较快的复杂场景，该方法难以满足驾驶需求。强化学习是一种以经验驱动的自主学习方法，可以让智能体通过与环境的不断交互以“试错”并获得反馈来获得完成任务的最优策略，在可以建模为马尔科夫决策过程的工程问题上有了广泛的应用。同时，深度强化学习使得深度学习强大的函数拟合能力与强化学习的决策能力相结合，为复杂问题的求解提供了新的解决思路。因此，可以作为解决智能车在高速公路场景下自动驾驶的可行性方案之一。车道跟随和自动超车是高速公路自动驾驶的两种典型工况，本文将深度强化学习技术应用于这两种工况的决策模块。主要研究内容如下：　　首先，对面向高速公路自动驾驶决策的深度强化学习算法进行改进。分别针对当前常用于自动驾驶决策的两种深度强化学习算法深度确定性策略梯度（DeepDeterministicPolicyGradient，DDPG）和近端策略优化（ProximalPolicyOptimization，PPO）进行改进，以使其更能满足高速公路自动驾驶场景对于决策模块的要求。对于DDPG算法，本文对其进行针对性改进提出了基于双评论家及优先回放机制的深度确定性策略梯度算法（DoubleCriticandPriorityExperienceReplayDeepDeterministicPolicyGradient，DCPER-DDPG）。针对Q值过估计导致的驾驶策略效果下降问题，采用了双评论家网络进行优化。针对演员网络更新时产生的时间差分误差导致算法模型不精准采用延迟更新方法降低这一影响。针对DDPG算法中随机经验回放导致的采样样本效果不符合预期和训练速度慢导致的算力和资源损耗，本文采用优先经验回放机制对其进行改善。对于PPO算法，本文引入好奇心机制以提高自动驾驶车辆探索环境的效率并将更新网络的方式由梯度上升改为均方根传递（RootMeanSquareProp，RMSProp）以更充分地训练智能体，提出了基于好奇心机制及均方根传递的近端策略优化算法（CuriosityandRMSPropProximalPolicyOptimization，CR-PPO）。　　其次，在仿真系统中对高速公路场景下车道跟随决策进行建模和验证。根据任务需求选择TORCS作为仿真环境、选择状态空间和动作空间、设计奖励函数。随后分别设计两种算法采用的演员和评论家网络结构。最后设计实验对车道保持系统的决策模块进行验证。　　最后，在仿真系统中对高速公路场景下自动超车决策进行建模和验证。根据高速公路自动超车的工况需求选择highway-env作为仿真环境，随后定义强化学习算法的状态空间、动作空间，并针对安全性、高效性和舒适性针对性地设计奖励函数。之后设计两种算法的神经网络结构。最后，根据任务需求设计实验验证了将强化学习算法用于高速公路自动超车决策模块的可行性并比较了两种算法的性能。
作者：	吕海鹏
专业：	车辆工程
导师：	何睿
授予学位：	硕士
授予学位单位：	吉林大学
学位年度：	2022