论文题名: | 基于深度强化学习的高速公路汽车自动驾驶策略研究 |
关键词: | 自动驾驶;高速公路;深度强化学习;策略梯度算法;速度奖赏;碰撞惩罚 |
摘要: | 如今,交通路况多变且复杂,尤其在高速公路环境下,人类驾驶员面临巨大的驾驶压力,因为高速公路车速快,流量大,驾驶时间往往较长,细微的操作失误便能造成巨大的交通事故损失,所以引入自动驾驶技术代替或者辅助人类驾驶员操控汽车能极大地避免重大事故的发生,便利人民大众的出行以及降低人类驾驶员的驱车心智负担。自动驾驶技术研究一直是国内外科研人员积极寻求突破的热点,传统的自动驾驶策略的设计往往是基于模型和控制理论的,在面对复杂的交通环境往往存在诸如难以建模和泛化能力较弱等问题。深度强化学习将深度学习强大的数据处理能力和强化学习擅于在不确定环境中学习最优决策的能力结合在一起,在自动驾驶领域具有天然的优势,可以集感知、决策和控制于一体形成端到端的自动驾驶策略,相对于传统方法具有自适应强、鲁棒性好的优点。故面向高速公路设计基于深度强化学习的端到端自动驾驶策略具有较大的研究意义和应用价值。 因此本文主要针对高速公路环境,采用深度强化学习端到端的方法设计自动驾驶策略,基于模拟高速公路环境的仿真软件highway-env验证驾驶策略的可行性和有效性,并对基于不同的深度强化学习算法的驾驶策略性能进行对比与分析。具体工作内容如下: 1.本文对深度强化学习算法进行了基本的梳理,基于高速公路环境不确定性高,建模难的特点,选择免模型的强化学习算法,再根据策略的确定性与随机性选择深度确定性策略梯度算法(DDPG)和近端策略优化算法(PPO)进行具体的策略设计。另外,鉴于DDPG算法的明显缺陷,提出了一种基于双延迟深度确定性策略梯度算法(TD3)的自动驾驶策略,可以有效地改善DDPG算法Q值过高估计等问题。 2.针对三种算法进行基于马尔科夫决策过程的强化学习建模,具体有对智能车所处高速公路环境的观测空间与动作空间设计,以及基于速度奖赏和碰撞惩罚的奖励函数设计。具体地,对基于DDPG算法的驾驶策略进行了探索策略设计,对基于TD3算法的驾驶策略进行了动作噪声优化和截断双Q学习优化,对基于PPO算法的策略进行了裁剪优化的处理。 3.本文通过搭建的highway-env仿真实验平台验证了三种驾驶策略的可行性以及对各策略作了性能对比,通过训练过程中回合平均所得奖励变化,模型训练效率,训练过程中平均车速变化、碰撞次数定量地分析了三种自动驾驶策略在高速公路环境的表现。实验结果表明,基于DDPG算法的驾驶策略训练效率较高,但稳定性不足,具体表现为获取的奖励较少且波动大,平均速度较慢,碰撞次数较多;而基于PPO算法的驾驶策略的智能车则稳定得多,平均所获回报较高,平均速度较快,碰撞次数较少,但也存在训练效率低下的问题;而基于TD3算法的驾驶策略的智能车则兼顾了两者的优点,模型训练效率高,平均所得奖励多,平均速度快,碰撞次数很少。综合来看,高速公路自动驾驶的第一要素仍然是安全,即车辆的稳定性问题,所以,在本次研究中,得出的结论是基于TD3算法的自动驾驶策略是最优的,PPO次之,DDPG稍显逊色。 |
作者: | 何宇涛 |
专业: | 控制工程 |
导师: | 赖冠宇;杨亮 |
授予学位: | 硕士 |
授予学位单位: | 广东工业大学 |
学位年度: | 2023 |