详情

原文传递基于深度强化学习的城轨列车ATO智能控制策略研究

论文题名：	基于深度强化学习的城轨列车ATO智能控制策略研究
关键词：	列车自动驾驶;节能控制;深度Q学习算法
摘要：	列车自动驾驶(AutomaticTrainOperation,ATO)系统是铁路智能化发展和城市轨道交通列车自动运行控制极为关键的一部分。车载ATO系统根据运行命令和移动授权(MovementAuthority,MA)范围结合线路参数，计算目标运行速度，随后调整输出的牵引和制动命令，控制列车跟踪目标运行速度。合理的ATO列车控制策略，可以保证列车安全、准点运行，提高停车精确度和乘坐舒适性，降低司机驾驶的疲劳度，在一定程度上减少列车牵引能耗。目前国内外多数研究都是对列车进行建模，采用仿生优化算法计算列车运行目标曲线，无法根据列车运行状态实时调整控制策略，本文考虑到列车运行环境复杂多变，基于强化学习的自适应、无模型、决策力强等特点，将深度强化学习(DeepReinforcementLearning,DRL)与列车自动驾驶相结合进行展开讨论，主要研究内容如下：　　首先，研究城市轨道交通列车的运行特点，以单质点模型为基础，对列车进行受力分析，建立列车运行模型。利用列车运行数据采用系统辨识的方法得到列车基本阻力参数，通过实际列车数据验证建立列车运行模型的有效性和准确性，作为算法训练数据的来源和后续实验的仿真环境。　　其次，根据强化学习马尔可夫决策模型，将列车的速度、距离和剩余运行时间作为状态空间，将列车的牵引/制动力级位作为动作空间。根据ATO系统的性能评价指标，从准点性、安全性、节能性和精准停车四个主要控制目标设计强化学习的连续型奖励函数作为引导算法学习的方向，同时根据列车的实际运行情况，将?-greedy探索策略与司机驾驶经验相结合，约束算法的探索空间，增加有效样本数目，提高算法的学习效率和训练速度。　　然后，根据强化学习中基于值函数优化和基于策略函数优化与深度学习相结合采用两种不同的算法：深度Q学习算法(DeepQNetwork,DQN)算法和深度确定性策略梯度算法(DeepDeterministicPolicyGradient,DDPG)算法用于求解列车节能控制策略。DQN算法使用神经网络对列车运行状态进行特征提取，利用列车历史运行数据训练神经网络逼近实际动作价值函数；DDPG算法使用Actor-Critic结构，将基于值函数和基于策略函数求解的优势相结合，Critic网络部分采用值函数求解方式对当前列车状态输出的动作策略进行评价，Actor网络部分采用策略函数求解方式输出当前状态的动作策略，根据Critic网络对该策略的评价进行修正。　　最后，根据上述研究结果，基于长沙地铁二号线的线路数据，对上述算法进行仿真验证。仿真结果表明DDPG算法相比于DQN算法和策略梯度(PolicyGradient,PG)算法在满足准点、安全、舒适和精准停车的情况下，节能性更好。对训练完成后的DDPG算法仿真列车行程规划时间调整、运行过程中临时调整进站时间和牵引系统故障后的控制策略，结果表明该算法能根据列车反馈的当前运行状态，实时调整控制策略，尽可能使列车运行满足准点、安全、舒适和精准停车的要求，具有较好的通用性和实时性。
作者：	金则灵
专业：	交通运输工程
导师：	武晓春
授予学位：	硕士
授予学位单位：	兰州交通大学
学位年度：	2022