论文题名: | 基于深度强化学习的自动驾驶系统设计与实现 |
关键词: | 自动驾驶系统;深度强化学习;异构融合特征;概率图模型;奖励函数 |
摘要: | 自动驾驶技术一直是人工智能领域研究的热点之一。传统模块化方法受限于驾驶环境的复杂,难以做出系统性设计;基于监督学习的深度神经网络方法通过学习人类驾驶记录,虽然可以模仿出人类驾驶动作,但受限于驾驶记录的广泛性,泛化能力不强;深度强化学习方法通过智能体与环境交互不断进行学习,在仿真环境下可以探索到各种可能发生的情况而无需数据集的支持。因此本文结合深度强化学习,采用端到端方法对自动驾驶系统进行研究并实现了对应的自动驾驶系统。 针对传统强化学习在高维连续空间探测效率低的问题,我们设计了先模仿学习后强化学习,精简状态异构融合的学习方法。模仿学习阶段,利用驾驶数据学会将高维图像信息降维为低维图像特征,连同描述环境的关键特征全面表示车辆状态,并采用分级整合连接的方式异构融合这些特征。强化学习阶段,采用深度确定性策略梯度算法(DDPG)并为自动驾驶场景量身定制了奖励函数以引导学习过程。经实验验证,该系统可以有效习得驾驶技能,基于异构融合特征的设计可以有效加速训练过程,该系统不仅可以完成一定的驾驶任务,而且具备了对动态物体的响应能力。 为了进一步优化自动驾驶方法,我们引入分支决策网络来解决导航问题。通过仿真平台提供的全局导航信息将分支决策网络设计为直行、左转、右转、道路跟随四种状态,每种状态相对独立训练。针对分支导航信息进一步优化了奖励函数,并参照CoRL2017评估标准对系统性能进行了测试。实验结果显示,我们所使用的方法与基准方法相比,整体上具备一定优势,任务成功完成的比例较高,尤其在不同天气变化下仍有较为优秀的表现。 针对自动驾驶系统在复杂环境下表现不够优秀的问题,采用潜状态时间序列模型对环境建模,使用照相机与雷达信息融合的方式进一步精准描述空间环境信息,为此使用软式演员评论家强化学习算法(SAC)进一步优化自动驾驶系统的决策能力。同时,引入二维语义鸟瞰图作为系统对环境理解的可视解释。实验表明,该方法可以在有大量动态物体的复杂环境下学习驾驶技术,相关性能指标优秀。系统生成的语义鸟瞰图可以较为准确地描述周围环境信息,有效地表示了系统对当前环境的理解。 本文从强化学习算法框架、输入特征形式和奖励函设计等方面综合研究了基于深度强化学习的自动驾驶系统设计。三种方案针对不同任务,互为补充,通过在CARLA自动驾驶仿真平台的实验证实,本文所用方法可以有效地学习自动驾驶技术,提升了强化学习算法在自动驾驶任务上的表现。 |
作者: | 冯天 |
专业: | 计算机技术 |
导师: | 石朝侠 |
授予学位: | 硕士 |
授予学位单位: | 南京理工大学 |
学位年度: | 2020 |