论文题名: | 基于DDPG算法的无人驾驶决策算法研究 |
关键词: | 深度确定性策略梯度算法;无人驾驶;挡位控制;神经网络 |
摘要: | 随着计算机技术的飞速发展,无人驾驶技术正逐渐走入了人们的视野,成为了可能。但无人驾驶的实现仍需要许多的路要走,诸如安全性、稳定性、泛用性等问题,深度强化学习算法将强化学习的策略生成能力与深度学习对模型的逼近拟合能力相结合,能高效处理各种复杂、高维度问题,为无人驾驶提供了可以前进的道路,诸多学者纷纷投入了对深度强化学习算法的研究。由此,涌现出了许多优秀的深度强化学习算法,本文主要对近年来比较优秀的DDPG算法做出改进展开研究,并据此进行了三组实验。 第一组实验是对DDPG算法的论证与仿真,首先论述了DDPG算法的理论基础,然后介绍了本课题将采用的仿真平台TORCS,并对该仿真平台的一些环境设置、模式设置,给定的状态数据进行了分析,最后在该平台上对DDPG算法进行了仿真实验与分析,并针对DDPG算法出现的训练时间过长、最终完成圈数不多的问题提出了改进的思路。 接着,我们引入熵的概念,设计了基于最大熵强化学习的改进DDPG算法,实现了原有算法从单步策略到多项分布策略的突破,改善了确定性策略对环境探索不够的问题,提高了算法对环境的探索利用率,第二组实验完成后用曲线图与表格的形式整理数据,将改进前后的算法做出了理性的对比与分析,验证了基于最大熵强化学习的改进DDPG算法的有效性。 最后针对第二组实验中小车训练初期容易在某几个弯道发生持续碰撞的问题,提出了将离散与连续相结合的思路,对原Actor网络进行修改,在原输出层的基础上,额外添加一组6个神经元的并行输出层,并引入Gumbel-SoftmaxTrick的方法,设计了一种基于挡位控制的无人驾驶决策方法,并进行了第三组实验,实验证明该方法能有效提高小车前期的探索效率,并实现了算法的控制多样化。 |
作者: | 姜鱇祝 |
专业: | 控制工程 |
导师: | 曾鸣 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工业大学 |
学位年度: | 2021 |