当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的虚拟无人车控制研究
论文题名: 基于深度强化学习的虚拟无人车控制研究
关键词: 无人车控制;强化学习;确定性策略梯度;自动驾驶系统
摘要: 无人车控制作为自动驾驶系统最底层的模块,对于自动驾驶的安全性、舒适性至关重要。主流的无人车控制采用基于模型的方法,使用控制理论,需要手工设计控制器的参数。基于模型的控制方法的已经被广泛地研究,其优点是具有可解释性,但是对于复杂的道路环境,控制器的参数将十分复杂。除此之外,传统控制器不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于模型的表达能力,对复杂道路环境不鲁棒。
  针对以上问题,本文做了两项工作提升无人车控制的性能:
  第一,使用深度强化学习代替传统控制方法。本文使用免模型、自学习的深度确定性策略梯度(DDPG)实现虚拟无人车的横向和纵向联合控制。DDPG是一种流行的、用于高维感知输入、连续控制输出的深度强化学习算法,它通过试错寻找最优控制策略,不需要车辆动力学模型以及环境模型;DDPG通过与环境交互进行学习,对环境变化更鲁棒。本文在TORCS驾驶模拟器中验证了基于DDPG的无人车横向和纵向联合控制,控制误差在合理范围之内。
  第二,由于深度强化学习需要大量试错,某些试错行为可能是危险的,特别在无人车控制任务中。本文提出使用少量先验知识加速深度强化学习的训练,减少试错次数。具体做法是将由少量先验知识设计的监督器指导DDPG的训练。这样的算法被称为监督式深度确定性策略梯度(Supervised DDPG)。本文在TORCS模拟器中比较了传统控制方法(本文使用反馈控制器)、DDPG、Supervised DDPG三种模型在无人车横向控制任务中的表现,实验结果显示,Supervised DDPG的控制性能比传统控制方法更加精确,收敛速度相比于DDPG大大提升,减少了试错次数。
作者: 顾文逸
专业: 模式识别与智能系统
导师: 杨健
授予学位: 硕士
授予学位单位: 南京理工大学
学位年度: 2018
正文语种: 中文
检索历史
应用推荐