当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的单智能体高速路段自动驾驶算法研究
论文题名: 基于深度强化学习的单智能体高速路段自动驾驶算法研究
关键词: 深度强化学习;自动驾驶;DDPG算法;SAC算法;TORCS仿真平台
摘要: 随着经济水平的发展,车辆保有量的不断攀升,为人们生活带来便捷的同时也带来了交通拥堵、空气污染、伤亡事故等一系列的问题,然而许多交通事故的发生原因在于驾驶人员的不当操作。近些年来人工智能、高精度雷达、计算机视觉等领域的不断发展,自动驾驶技术被视作有望解决这一系列问题的有效应对方案。然而,开发出完全自主的自动驾驶系统在当今世界依然是一件极为困难的事件。深度强化学习结合了深度学习的强大感知能力和强化学习的优秀决策能力,与自动驾驶领域的需求刚好完美契合,利用深度强化学习算法进行自动驾驶研究具有非凡的意义。本文针对深度强化学习算法应用到智能驾驶领域进行研究,对部分算法进行改进,并在TORCS(TheOpenRacingCarSimulator)模拟仿真平台环境中进行自动驾驶实验,这是由于TROCS仿真实验环境与高速路段工况极其相似,具体工作如下:
  通过对无人驾驶和深度强化学习现状进行分析,在原有深度确定性策略梯度算法(DeepDeterministicPolicyGradient,DDPG)的基础上,分析算法结果中存在的收敛速度慢,泛化能力差等问题,通过增加持续衰减的噪声,加入人类专家经验,引入长短期记忆网络(LongShort-TermMemory,LSTM)网络对算法进行改进。柔性演员评论家(SoftActor-Critic,SAC)算法引入最大熵的概念,增加了模型的稳定性和算法的探索能力,但需要人工进行熵温度系数这一超参数的调节,本文通过将温度系数加入策略优化当中、对Critic网络结构调整进行算法改进。
  最后搭建TORCS仿真平台,在TORCS模拟仿真平台上对改进前后的算法进行了测试分析,TORCS仿真平台通过各种传感器收集环境状态信息输出,接受刹车、油门、方向控制信号进行车辆控制,实验结果表明:改进后的DDPG算法与原算法在收敛速度方面有明显的提升,改进后的SAC算法在收敛速度上有部分提升。单独切换场景进行泛化能力测试,发现改进后的DDPG算法具备良好的泛化能力,结论与预期效果相符,同时也证实两种改进算法在自动驾驶控制任务中的可行性。
作者: 牟浪
专业: 计算机应用技术
导师: 王之怡
授予学位: 硕士
授予学位单位: 西南财经大学
学位年度: 2022
检索历史
应用推荐