论文题名: | 基于深度强化学习的端到端无人驾驶决策算法研究 |
关键词: | 无人驾驶;智能决策;深度强化学习 |
摘要: | 由于近数十年来我国经济水平的快速稳定发展,我国的城镇化发展进程得到明显加快,人均机动车保有量不断提高,但同时也一并面临着日益严峻的空气污染问题和城市道路交通安全挑战。在过去的几年中,无人驾驶作为一种颇具潜力能够改善现状的技术,受到资本青睐从而获得了蓬勃发展。然而在传统无人驾驶领域中,车辆改装调试硬件成本高、开发周期长且流程复杂,基于人工驾驶策略的车辆决策控制算法也一样存在不灵活、设计繁琐等问题。深度强化学习作为决策和控制领域的新兴前沿探索性技术,在无人驾驶领域具有很大的潜力,可极大地简化传统无人驾驶开发的复杂流程,同时也避免人工手动设计车辆驾驶策略的繁琐,因此本文研究基于深度强化学习的端到端无人驾驶决策算法。 首先,针对传统无人驾驶技术开发周期长、测试流程慢、部署成本高等挑战,本文通过研究无人驾驶仿真环境和车辆智能体的交互机制,设计了一个无人驾驶仿真环境封装框架CARLA_RL。该框架用于智能体与环境的交互以简化车辆与环境的交互流程,同时为车辆智能体在环境中学习创造训练环境和条件。其次,针对传统强化学习智能体学习周期长、收敛慢等特点,本文研究了人类驾驶司机的模仿数据与强化学习的融合方案。通过使用模仿学习的人类驾驶数据来对传统强化学习方法进行优化,在传统DDPG算法基础上设计了一个新的模仿经验回放记忆池并引入热身训练阶段来加快智能体的环境探索部分,进而得到模仿性DDPG算法IDDPG,在加快智能体早期自学习情况上效果显著。接着,针对传统强化学习智能体的回放缓冲记忆池机制对交互数据的利用率不高等问题,本文研究了回放缓冲记忆池中的高奖励数据优先保留方法,提出优先保留方法和加速态概念,通过提高智能体与环境交互后期相对的高奖励值交互数据在池中的分布进而提升智能体对优秀数据样本利用率。 最后,本文在自设计的无人驾驶仿真封装框架CARLA_RL中进行了相应算法的开发,并根据驾驶测试基准CoRL2017进行了相应的车辆智能体算法训练和测试实验。结果表明,相较于基准测试标准结果,IDDPG算法在训练过程中表现出更快的学习速度和更好的交互数据奖励分布,同时在测试实验中有着更好的实际驾驶性能表现。 |
作者: | 张俊阳 |
专业: | 电子与通信工程 |
导师: | 刘民岷 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2022 |