论文题名: | 基于学习的自动驾驶行为决策研究 |
关键词: | 自动驾驶;行为决策;强化学习;运动规划 |
摘要: | 行为决策是自动驾驶研究中的重要课题,是自动驾驶系统中承接上层感知、指导下层规划的重要中间环节。关于自动驾驶行为决策的研究对提高自动驾驶车辆智能性与安全性、促进自动驾驶车辆更广阔的发展有着重要的研究意义与应用价值。 传统的自动驾驶行为决策面临着状态空间庞大、人工规则设计与维护困难、规则智能性不足等多方面的困难与挑战。本文将学习的方法引入行为决策,分别针对高速道路与城市道路,通过模仿学习与强化学习方法实现了快捷、安全的驾驶行为决策算法。同时,为了实现行为决策层与运动规划层更紧密的配合,本文提出了一种采用运动规划代价进行强化学习的分层行为决策与运动规划方法,并分别在仿真环境与实车平台验证了所提算法。 本文主要研究成果包括: (1)提出了高速道路驾驶行为决策的模仿学习优化方法。在实现行为克隆和数据聚合驾驶行为学习的基础上,针对行为克隆方法存在的“遗忘”问题,提出了基于长短时记忆网络的驾驶行为决策模型;针对数据聚合方法中直接用学习策略采样带来的数据效率低下的问题,提出了一种在线混合采样方法,在保证数据分布无偏的同时提高了学习效率。本文建立了两种仿真高速公路环境,并分别在连续动作空间与离散动作空间进行仿真实验验证了所提算法的有效性。 (2)提出了考虑交通规则的城市道路状态表征方式及相应的驾驶行为强化学习方法。所提状态表征方式通过周边占据地图与交通信息向量的方式表征了驾驶中需要考虑的多模信息。基于此状态表征,分别实现了基于深度Q学习与基于近端策略优化的两种强化学习驾驶行为决策方法。特别地,针对无红绿灯十字路口问题,提出了基于独立Q分布学习的多智能体十字路口通过算法。通过设计不同“性格”的智能体,丰富了强化学习的训练环境,提高了算法鲁棒性。分别搭建了多个仿真环境,验证了所提算法有效性。 (3)提出了采用运动规划代价进行强化学习的分层行为决策与运动规划方法。针对结构化道路驾驶场景,提出了一种基于上层行为的运动规划方法,通过轨迹的预生成、采样、评估与选择,完成对上层决策的运动规划。所提出的分层决策与规划方法可以将规划器规划过程中的代价映射为上层行为决策模块的回报,实现下层运动规划对上层行为决策的反馈。本文通过消融实验与对比试验验证了所提方法的先进性,并搭建了实车实验平台,在校内道路中实现了分层行为决策与运动规划算法在实车上的部署实验。通过自然场景实验与设计场景实验证明了算法可以无需再训练地直接从仿真环境迁移至试车环境,并安全地完成导航任务。 |
作者: | 王景珂 |
专业: | 控制科学与工程 |
导师: | 熊蓉;王越 |
授予学位: | 硕士 |
授予学位单位: | 浙江大学 |
学位年度: | 2021 |