当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的智能车驾驶行为决策研究
论文题名: 基于深度强化学习的智能车驾驶行为决策研究
关键词: 智能驾驶;强化学习;驾驶决策;模仿学习;生成对抗模仿学习
摘要: 随着人工智能技术的快速发展,汽车的智能化水平与日俱增,结构化道路作为最常见和最重要的交通场景,是实现自动驾驶典型的应用场景。在自动驾驶技术中,智能车的驾驶行为决策一直是研究的热点和难点,目前主流的决策方法主要基于专家规则,缺少对环境的适应性和泛化性。本文以智能车为研究对象,基于结构化道路交通环境,面向直道、并道以及环岛三种典型场景,针对智能车行为决策的特殊性和环境的多样性,提出了两种基于深度强化学习的智能车驾驶行为决策方法。具体研究内容如下:
  (1)查阅智能车行为决策和深度强化学习的相关文献,对国内外研究成果进行分析,比较不同方法的优劣,明确本文的研究内容,并选定基于深度强化学习来研究结构化道路下的车辆驾驶行为决策,奠定了后续的研究基础。
  (2)面向交通仿真问题,本文基于《智能网联汽车自动驾驶功能测试规程》选取直道、并道以及环岛作为研究场景,通过构建仿真环境、设定环境参数和车辆参数,可以验证智能车的车辆跟随、变道超车、匝道合车、驶入环岛以及驶离环岛等方面能力。
  (3)针对智能车驾驶行为决策模型,本文设计了基于DQN(DeepQ-Learning)的行为决策模型,在交通仿真系统中验证DQN算法在直道、并道以及环岛场景下的训练效果,同时比较了不同奖励值函数对训练结果的影响。
  (4)针对奖励值函数设计繁琐的问题,本文通过模仿人类驾驶经验,利用生成对抗模仿学习的方法来生成奖励值函数。由于传统的GAIL(GenerativeAdversarialImitationLearning)算法的生成器是基于PPO(ProximalPolicyOptimization)或TRPO(TrustRegionPolicyOptimization)设计,主要适用于动作空间连续场景,本文提出DGAIL(DQNGenerativeAdversarialImitationLearning)算法,利用DQN算法作为GAIL的生成器,最后在交通仿真系统中进行训练和验证。
  研究结果表明,对于基于DQN的智能车驾驶行为决策模型,不同的奖励值对最后的结果有着显著的影响,由于奖励值DQN-4包含状态奖励和动作奖励,在仿真场景中实现效果最好。对于基于DGAIL的智能车驾驶行为决策模型,相较于DQN方法两者的训练效果相差不大,采用DGAIL的方法可以省去奖励值函数的设计,同时也保证了训练的有效性,可以实现在结构化道路上的安全、高效地行驶。
作者: 罗鹏
专业: 控制科学与工程
导师: 黄珍
授予学位: 硕士
授予学位单位: 武汉理工大学
学位年度: 2021
检索历史
应用推荐