详情

原文传递基于深度强化学习的城市交叉路口智能车驾驶控制策略研究

论文题名：	基于深度强化学习的城市交叉路口智能车驾驶控制策略研究
关键词：	自动驾驶;控制策略;深度强化学习;近端策略优化算法
摘要：	随着自动驾驶产业的飞速发展，智能车很快即将步入我们的生活。现有自动驾驶系统结构复杂，并且成本较高。交叉口作为重要的交通场景，对整个交通的效率、安全性和能耗起着至关重要的作用。通过国内外学者的研究，深度强化学习相关算法已经被应用于智能车驾驶控制策略的设计之中，主要应用场景为高速路、普通城区，并取得了可观的效果，针对于城市道路交叉口的研究仍然匮乏。因此，使用新兴算法如深度强化学习为自动驾驶设计安全可靠、并且成本较低的驾驶控制策略仍然具有现实意义。本文立足于低成本、高效率、高安全性等诸多要求设计了城市交叉路口智能车驾驶控制策略，并设计了多个驾驶任务进行了仿真验证。　　首先对深度强化学习理论进行了介绍与分析。介绍了基础强化学习理论，包括贝尔曼方程、马尔可夫决策过程等，引出了基于价值和基于策略的两种无模型强化学习方法，然后对两种方法相结合的演员评论家算法框架进行分析，为后续算法设计打下理论基础。在理论的基础上构建了自动驾驶深度强化学习模型，包括汽车运动学模型和本文所使用的深度强化学习算法之近端策略优化算法。为了能够有效结合人类的先验知识，本文采用 Beta 分布函数作为策略分布函数，并使用改进后的损失函数进行算法的训练，加速算法的收敛。　　在自动驾驶强化学习模型的基础上本文使用近端策略优化算法构建了端到端驾驶控制模型，提出通过由单摄像头传感器所采集的交叉口图像信息作为智能车状态空间输入，并且针对图像信息维度过大导致算法收敛速度慢的问题，提出使用变分自编码器进行图像特征的压缩，经仿真实验验证，所设计的变分自编码器能够有效提取图像特征，重构后的图像能够保留原始有效信息。设计了考虑多因素的奖励函数，通过仿真对比实验，本文所设计的奖励函数通过加入成功奖励，能够使智能车更快学习到合适的驾驶控制策略。此外，本文将基于深度强化学习的驾驶控制模型与规则判定机制相结合设计得到一种分层驾驶策略，其包括规则判定机制和基于深度强化学习的端到端驾驶控制模型和避撞驾驶控制模型，能够满足低成本、安全性、效率性的要求。　　最后比较了主流的自动驾驶仿真器，选择 CARLA 进行本文的自动驾驶仿真针对不同驾驶控制任务。对本文所提出的端到端驾驶控制模型、分层驾驶策略分别进行了仿真验证以及对比实验，结果证明经过训练得到的端到端驾驶控制模型能够仅通过单 RGB摄像头传感器所采集的图像信息完成左转、直行、右转驾驶任务，极大的简化了传统的自动驾驶系统，缩减了成本。所提出的分层驾驶策略相较于传统基于规则的方法，保证相似的效率（即速度）的情况下，通过路口的成功率提升了34%。
作者：	申明雨
专业：	交通运输工程
导师：	杜丹丰
授予学位：	硕士
授予学位单位：	东北林业大学
学位年度：	2022