论文题名: | 基于深度强化学习的虚拟无人车控制研究 |
关键词: | 无人车控制;强化学习;确定性策略梯度;自动驾驶系统 |
摘要: | 无人车控制作为自动驾驶系统最底层的模块,对于自动驾驶的安全性、舒适性至关重要。主流的无人车控制采用基于模型的方法,使用控制理论,需要手工设计控制器的参数。基于模型的控制方法的已经被广泛地研究,其优点是具有可解释性,但是对于复杂的道路环境,控制器的参数将十分复杂。除此之外,传统控制器不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于模型的表达能力,对复杂道路环境不鲁棒。 针对以上问题,本文做了两项工作提升无人车控制的性能: 第一,使用深度强化学习代替传统控制方法。本文使用免模型、自学习的深度确定性策略梯度(DDPG)实现虚拟无人车的横向和纵向联合控制。DDPG是一种流行的、用于高维感知输入、连续控制输出的深度强化学习算法,它通过试错寻找最优控制策略,不需要车辆动力学模型以及环境模型;DDPG通过与环境交互进行学习,对环境变化更鲁棒。本文在TORCS驾驶模拟器中验证了基于DDPG的无人车横向和纵向联合控制,控制误差在合理范围之内。 第二,由于深度强化学习需要大量试错,某些试错行为可能是危险的,特别在无人车控制任务中。本文提出使用少量先验知识加速深度强化学习的训练,减少试错次数。具体做法是将由少量先验知识设计的监督器指导DDPG的训练。这样的算法被称为监督式深度确定性策略梯度(Supervised DDPG)。本文在TORCS模拟器中比较了传统控制方法(本文使用反馈控制器)、DDPG、Supervised DDPG三种模型在无人车横向控制任务中的表现,实验结果显示,Supervised DDPG的控制性能比传统控制方法更加精确,收敛速度相比于DDPG大大提升,减少了试错次数。 |
作者: | 顾文逸 |
专业: | 模式识别与智能系统 |
导师: | 杨健 |
授予学位: | 硕士 |
授予学位单位: | 南京理工大学 |
学位年度: | 2018 |
正文语种: | 中文 |