当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的拟人化自动驾驶行为决策研究
论文题名: 基于深度强化学习的拟人化自动驾驶行为决策研究
关键词: 自动驾驶;深度强化学习;驾驶风格;拟人化决策
摘要: 自动驾驶技术能够提升驾驶安全性和出行效率,是汽车未来发展的重要方向。决策模块作为自动驾驶技术的重要一环,能够根据感知层的信息选择合理的动作以完成驾驶任务,是自动驾驶技术的核心。针对当前自动驾驶决策不够拟人化,较少考虑驾驶员风格的问题,基于深度强化学习提出了一种结合驾驶风格的决策方法,旨在能够满足不同风格驾驶员的决策需求,使决策更加拟人化。具体研究内容如下:
  (1)针对自动驾驶拟人化决策需要识别驾驶风格的需求,基于客观驾驶数据和主观问卷分析了驾驶风格,提出了一种驾驶风格分类模型。首先搭建了驾驶模拟器采集实验人员的客观驾驶数据,通过K-means算法将实验人员的驾驶风格分为激进型、一般型和保守型三类。其次基于驾驶员行为问卷(DriverBehaviorQuestionnaire,DBQ)和多维度驾驶风格量表(Multi-dimensionalDrivingStyleInventory,MDSI)设计了主观驾驶风格问卷供实验人员填写,问卷经信度和效度检验后,通过主成分分析和K-means聚类将实验人员分为三类,标注每一类的驾驶风格。再次将客观驾驶数据分析和主观问卷分析的结果进行对比验证了分类的准确性。最后利用人工神经网络建立了驾驶风格分类模型,将驾驶模拟器采集的实验数据分为训练集和验证集,通过训练集训练驾驶风格分类模型,利用验证集验证了模型识别驾驶风格的准确性。
  (2)针对驾驶员对驾驶安全性、舒适性和行车效率的需求,分别基于深度Q网络(DeepQNetwork,DQN)和优势演员评论家(AdvantageActorCritic,A2C)两种深度强化学习算法建立了决策模型。首先搭建了SUMO(SimulationofUrbanMObility)仿真环境用于模型训练与验证。其次基于DQN和A2C算法设计了决策模型并进行训练,模型回报函数考虑了安全性、舒适性和行车效率三个方面。最后在SUMO仿真环境中进行了模型测试,在奖励值、碰撞率、行驶速度、行驶距离、换道次数和超车次数多个维度对比了DQN和A2C两种决策模型的效果。结果表明采用DQN决策模型的车辆安全性和行车效率更高,综合表现更好。
  (3)针对当前自动驾驶决策不够拟人化的问题,基于表现更好的DQN决策模型提出了一种结合驾驶风格的拟人化决策模型。首先根据三种驾驶风格的客观驾驶数据设计了不同风格DQN决策模型的回报函数,确定了回报函数中安全性、舒适性和行车效率三部分的权重。其次基于三种驾驶风格的回报函数训练了对应风格的DQN决策模型。最后在SUMO仿真测试环境中分别测试了不同风格DQN决策模型的效果,结果表明采用激进型决策模型的车辆在行驶时舒适性最低,行车效率最高,采用保守型决策模型的车辆在行驶时舒适性最高,行车效率最低,验证了不同风格决策模型可以满足不同风格驾驶员的驾驶需求,体现了决策的拟人化。
作者: 石博文
专业: 工业设计工程
导师: 沈传亮
授予学位: 硕士
授予学位单位: 吉林大学
学位年度: 2022
检索历史
应用推荐