当前位置: 首页> 学位论文 >详情
原文传递 基于模仿与强化协作学习的列车智能驾驶研究
论文题名: 基于模仿与强化协作学习的列车智能驾驶研究
关键词: 列车智能驾驶;生成对抗模仿学习;强化学习;行为克隆
摘要: 近年来,城市轨道交通行业迎来飞跃发展,随之而来的困难和挑战与日俱增,传统人工驾驶列车已经难以满足日常需求,提高列车运行自动化、智能化水平势在必行。由于列车系统非线性、多变量等特性,传统控制方法面对复杂的环境变化无法进行实时调整,深度学习方法在泛化性方面存在缺陷,普通强化学习(Reinforcement Learning,RL)则存在盲目探索、收敛速度慢的缺点。因此,本文融合多种新兴人工智能技术,研究基于模仿与强化协作学习的智能驾驶方法,其主要内容如下:
  (1)建立基于强化学习的列车驾驶模型。首先将列车的位置、速度、加速度和剩余计划运行时间作为状态空间,然后把牵引/制动等级作为动作空间,最后以能耗、停车精度、准时和舒适度等指标为基础,设计引导性的多维奖励函数。
  (2)针对分级控制方式的列车,提出一种生成对抗模仿与强化协作学习的列车智能驾驶方法。采取近端策略优化算法( Proximal Policy Optimization , PPO )作为强化学习基础框架,引入生成对抗模仿学习算法( Generative Adversarial Imitation Learning,GAIL),将判别器输出与原始奖励函数相结合,把训练分为引导与探索两个阶段,并设计自适应系数实现从模仿到强化的平稳过渡,从而减少PPO算法前期的盲目探索,加快学习效率,提升收敛效果。最后,以北京地铁亦庄线旧宫站-亦庄桥站为仿真算例进行实验,结果表明,本文提出的算法加快了PPO算法学习效率,在满足准点、安全、舒适和精准停车的情况下,节能性更好,同时面对不同的道路限速与计划运行时间也有较好的鲁棒性。
  (3)针对无级变速控制方式的列车,提出一种行为克隆与强化协作学习的列车智能驾驶方法。首先采取哈里斯鹰算法(Harris Hawks Optimizer,HHO)对速度曲线进行优化,获得初步解集,将其视为专家数据。然后以行为克隆方式对柔性演员评论家算法(Soft Actor-Critic,SAC)中的Actor网络进行预训练,为网络装入初值。根据柔性Q值模仿学习算法(Soft Q imitation learning,SQIL),将专家数据放入SAC算法经验池,并设计更新策略,保证算法在提升效率的同时能够进一步探索更为优秀的解集。最后,以北京地铁亦庄线小红门站-旧宫站为仿真算例进行实验,结果表明,相较于SAC算法,本文所提算法不仅在学习速度上更快,同时在列车自动驾驶系统(Automatic Train Operation System,ATO)性能指标上表现更佳。
作者: 刘清山
专业: 计算机科学与技术
导师: 徐凯
授予学位: 硕士
授予学位单位: 重庆交通大学
学位年度: 2023
检索历史
应用推荐