当前位置: 首页> 学位论文 >详情
原文传递 基于强化学习的重载列车运行优化研究
论文题名: 基于强化学习的重载列车运行优化研究
关键词: 重载列车;运行优化;强化学习;专家监督
摘要: 随着科学技术的进步,我国交通运输行业发展尤为突出,其中轨道交通运输业在各方面都具有跨越式进步,积累了大量领先世界的前沿技术。在当下的国民经济快速发展时期,轨道交通运输的压力也越来越大。重载铁路作为大宗商品运输的重要途经,线路距离长且环境多变,面对如此环境,驾驶人员极容易产生疲劳。本文以大秦线上运行的HXD1机车牵引1万吨货车作为研究对象,通过强化学习方法训练出一套重载列车辅助驾驶系统,以缓解驾驶人员疲劳、保证列车安全、提高列车运输效率。
  针对重载列车的运行效率问题,本文利用TD3和PPO两种强化学习算法进行了控制策略的学习。首先通过对重载列车机理模型进行了分析与建模,作为后续实验的基础;再将重载列车运行过程划分为牵引启动、巡航控制和停车制动三个部分,以解决强化学习在长时间运行的环境中无法学习到策略的问题;并基于实际控制列车需要参考的条件设计状态空间,根据HXD1机车的牵引特性确定了动作空间的连续性;并根据安全、稳定、高效的目标设计了奖励函数,训练了两种智能体。仿真结果表明,本文设计的状态与奖励函数能够使智能体学习到高效驾驶重载列车的控制策略。
  针对重载列车运行的稳定性问题,本文设计了基于专家监督的强化学习训练方案,使智能体更稳定的驾驶列车。首先通过循环神经网络对专家行驶数据进行了行为克隆,克隆出的策略网络作为专家网络用来监督强化学习的训练,达到了加快训练的效果;并且通过添加控制力变化幅度的约束,减少列车控制力的频繁调整;通过随机初始化巡航阶段和制动阶段的初速度,训练一个对环境切换速度不敏感的巡航控制策略和停车制动策略;最后通过在牵引启动、巡航控制、停车制动的分段点设计软切换约束,降低因控制工况切换产生的控制力跳跃。仿真结果表明,基于专家监督的强化学习训练方案得出的控制器,控制更加稳定,能够保证列车安全运行。
  由于强化学习环境中没有一个开放的重载列车仿真器观察和调试,并且缺少重载列车实际运行数据。本文利用Qt设计并搭建了重载列车仿真平台,通过观察列车运行效果,辅助调试算法可能出现的问题,并用以生成专家驾驶的运行数据,辅助专家策略网络训练。
作者: 王禹
专业: 控制科学与工程
导师: 杨辉
授予学位: 硕士
授予学位单位: 华东交通大学
学位年度: 2021
检索历史
应用推荐